gpt4 book ai didi

hadoop - 映射器和化简器任务的分配方式

转载 作者:行者123 更新时间:2023-12-02 20:31:20 25 4
gpt4 key购买 nike

当执行MR作业时,Hadoop将输入数据划分为N个拆分,然后启动相应的N个Map程序来分别处理它们。
1.如何分割数据(分为不同的inputSplits)?
2.如何安排Split(如何确定处理Split的Map程序应在哪台TaskTracker计算机上运行)?
3.如何读取分割后的数据?
4.如何 reduce task 分配?
在hadoop1.X中
enter image description here
在hadoop 2.x中
enter image description here

这两个问题都有一定的联系,所以我一起问了他们,​​您可以证明自己擅长哪一部分。

提前致谢 。

最佳答案

数据以预定义大小在HDFS块中存储/读取,并通过使用字节扫描器并知道要读取多少字节以确定何时需要返回InputSplit的各种RecordReader类型来读取。

更好地理解它的一个好方法是实现自己的RecordReader并创建一个小记录,一个大记录和许多记录的大小文件。在多条记录的情况下,您尝试将一条记录分为两个块,但是该测试用例应与两个块上的一个大记录相同。

Reduce tasks can be set by the client of the MapReduce action.

从Hadoop 2 + YARN开始,该镜像已过时

关于hadoop - 映射器和化简器任务的分配方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53229834/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com