gpt4 book ai didi

hadoop - 跨节点的数据移动是否发生在 Reducer 阶段? MapReduce

转载 作者:可可西里 更新时间:2023-11-01 16:58:55 25 4
gpt4 key购买 nike

这是一道概念题。当映射器函数完成时,它会在本地节点上发出中间键值对。如果假设 Jobtracker 选择 reducer 从不同的节点运行,数据移动是否发生在节点之间?

如果是这样,请告诉我只有在所有 Mapper 阶段完成后,reduce 阶段才会开始。或者是否会有任何后台进程在单个映射器完成后立即运行,这会将数据移动/复制到 Reducer 节点?

如果这个问题很愚蠢,请忽略 :(

最佳答案

If suppose The Jobtracker chooses reducer to run from different node, do the Data movement happens across the nodes?

是的,如果 Reduce 任务在不同的节点上运行,而不是数据移动发生在节点之间。

please let me know will the reduce Phase starts Only after all the Mapper Phase gets complete.

Reduce 任务在所有 Mapper 完成后才会自行初始化。但是 map 任务可能在不同的时间完成,所以 Reduce 任务在每个 map 完成后立即开始复制 Mapper 的数据。这称为 copy 阶段。一旦所有映射器完成处理并且所有数据都在 reducer 端聚合后,reduce 方法就会被初始化。

will there be any background process that runs as soon as individual mapper gets completes, which will move/copy the data to the Reducer node?

Mapper 的中间数据由 TaskTracker 托管的内部码头 Web 服务器提供服务,reduce 任务具有一组线程,这些线程将从 mapred.reduce.parallel.copies .

关于hadoop - 跨节点的数据移动是否发生在 Reducer 阶段? MapReduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26854756/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com