gpt4 book ai didi

hadoop - 关于 map reduce 中洗牌的查询

转载 作者:可可西里 更新时间:2023-11-01 15:01:08 25 4
gpt4 key购买 nike

运行映射器的节点处理如何知道它必须将一些键值输出发送到节点 A(运行 reducer)和一些到节点 B(运行另一个 reducer)?JobTracker 是否在某个地方维护了一个 reducer 节点列表?如果是,它如何选择一个节点来运行 reducer?

最佳答案

Mapper 并不知道将数据发送到哪里,它专注于两件事:

  • 将数据写入磁盘。最初, map 输出缓冲在内存中,一旦它达到某个阈值,它就会被刷新到磁盘。但就在进入磁盘之前,数据通过获取输出键的哈希值进行分区,输出键对应于它将被发送到的 Reducer
  • 一旦 map task 完成,它将通知父任务跟踪器说它已完成,然后父任务跟踪器将通知作业跟踪器本身。因此作业跟踪器具有 map 输出和任务跟踪器之间的完整映射。

从那里开始,当 Reducer 启动时,它将不断向作业跟踪器询问与其分区对应的映射输出,直到它检索到所有输出。每当 map 输出可用时,reduce 任务将开始复制它,并在复制时逐渐合并。

如果这仍然不清楚,我建议您查看 the reference book on Hadoop有一整章描述这部分,这里是从中提取的模式,可以帮助您可视化随机播放步骤中发生的事情:

enter image description here

关于hadoop - 关于 map reduce 中洗牌的查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16870076/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com