gpt4 book ai didi

hadoop - 数据如何在 cluster map reduce 环境中合并

转载 作者:可可西里 更新时间:2023-11-01 16:29:22 25 4
gpt4 key购买 nike

我是 hadoop 的新手。我在集群环境中理解 MapReduce 时遇到问题。

拿字数统计示例代码假设我有三个节点,每个节点都有一个map任务。 map 后:机器A:

hello 1
word 1
data 1
...

机器 B:

hello 1
xu 2
...

map 的输出保存在机器的本地文件中。我的问题是这些跨多台机器的数据在传递到 reduce 阶段之前是如何合并的?例如,reduce 状态接收

hello <1, 1>
xu 1

最佳答案

  1. 在此示例中,Mapper 获取每行输入数据的最后一个单元格的平均值。它不计算字数,因此请记住,您不会使用此映射器从本地数据集中获得此类字数统计输出数据;
  2. 在开始您的 reduce 阶段之前,MR 框架会将每个节点的每个映射器的输出分组为一个按关键数据集排序的单个输出。最终它将被分成一组减少作业,您可以在其中定义减少逻辑。
  3. 对于您的特定情况,正如我在上一点中提到的,所有输出都将按与输出的第一个单词相关的键进行分组:

机器A:你好1,词1,数据1

机器B:你好1,xu 2

Reducer 输入数据{1},你好{1,1},单词{1},xu {2}

在此 article 中查看有关 MapReduce 的更多详细信息

关于hadoop - 数据如何在 cluster map reduce 环境中合并,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42353769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com