gpt4 book ai didi

hadoop - 仅当所有映射器完成时才减少工作?

转载 作者:可可西里 更新时间:2023-11-01 15:00:20 26 4
gpt4 key购买 nike

美好的一天...我有一点困惑; reduce task 和减少工作有什么区别?这是我的情况;我读到在所有映射完成之前 reduce 不会开始......但在 hadoop 输出中我看到的不是这样:

12/02/11 10:58:50 INFO mapred.JobClient: map 60% reduce 16%
12/02/11 10:58:54 INFO mapred.JobClient: map 60% reduce 20%
12/02/11 10:58:55 INFO mapred.JobClient: map 65% reduce 20%

减少了 16% 而 map 仍然是 60%...这里到底发生了什么?

最佳答案

“reduce phase”分为三个阶段:shuffle、sort、reduce。洗牌复制数据,排序将键组合在一起。 reduce 是您编写的实际 reduce 函数。

百分比的工作方式是 shuffle 为 33%,sort 为 33%,reduce 为 33%。您看到的是“大约 16%/33%(即 48%)的数据已被复制到 reducers”。在所有映射器完成之前,最后 33% 的“reduce”无法开始。

关于hadoop - 仅当所有映射器完成时才减少工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10192459/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com