gpt4 book ai didi

hadoop - MapReduce shuffle 和 sort 阶段的复制操作

转载 作者:可可西里 更新时间:2023-11-01 15:23:49 26 4
gpt4 key购买 nike

我很困惑,在 Shuffle 和 Sort 阶段,具有 m 个映射器和 r 个缩减器的作业涉及最多 mr 个复制操作。复制操作在什么情况下会达到最大值m*r?

谁能解释一下?

最佳答案

假设您有 3 个映射器和 1 个缩减器。每个映射器任务输出 1 个文件(按键排序),该文件被写入 map 函数运行的本地文件系统。因此,我们将有 3 个这样的输出文件分布在集群中。

由于 reducer 没有利用数据局部性优化,并且由于我们只有 1 个 reducer - 它需要复制每个映射器任务在网络上生成的 3 个不同的输出文件。

因此,此场景中涉及m x n = 3 x 1 = 3 复制操作。

关于hadoop - MapReduce shuffle 和 sort 阶段的复制操作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50230981/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com