gpt4 book ai didi

Hadoop combiner 在 reducer 上执行

转载 作者:可可西里 更新时间:2023-11-01 14:58:20 24 4
gpt4 key购买 nike

我有一个长时间运行的 MapReduce 作业,其中一些映射器比其他映射器花费更多的时间。

检查 Web 界面上的统计数据,我看到我的组合器也启动了 reducer(其中大部分空闲,因为只有 2 个映射器仍在运行)。

虽然在所有映射器完成之前不浪费时间并进行一些预聚合似乎是合理的,但我找不到有关此行为的任何文档。谁能确认这确实是 Hadoop 的一个特性,或者只是在 Web 界面上显示错误?

最佳答案

组合器在映射器发出合理数量的数据时启动。请注意,组合器作为映射器输出的聚合(通常)运行(而不是在减少端)。可以找到更多详细信息here .

此外,reducer 可以在所有映射器完成之前开始(仅)收集映射器发出的数据。这被称为 reducer 的洗牌阶段。您可以更改 reducer 开始收集数据的时间,方法是更改​​ mapred.reduce.slowstart.completed.maps 属性(或 mapreduce.job.reduce.slowstart.completedmaps 在较新的版本中)。有关 this SO post 的更多详细信息.

关于Hadoop combiner 在 reducer 上执行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30056511/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com