gpt4 book ai didi

hadoop - Hadoop 上理想的 reducer 数量是多少?

转载 作者:可可西里 更新时间:2023-11-01 14:19:10 25 4
gpt4 key购买 nike

Hadoop wiki 给出的计算 reducer 的理想数量是 0.95 或 1.75 * (nodes * mapred.tasktracker.tasks.maximum)

但是什么时候选择0.95,什么时候选择1.75?决定这个乘数时考虑的因素是什么

最佳答案

假设您的集群中有 100 个可用的 reduce 插槽。

负载因子为 0.95 时,所有 95 个 reduce 任务将同时启动,因为有足够的 reduce 槽可用于所有任务。这意味着没有任务会在队列中等待,直到其余任务之一完成。当 reduce 任务“小”时,我会推荐此选项,即完成相对较快,或者它们都需要相同的时间,或多或少。

另一方面,负载因子为 1.75,100 个 reduce 任务将同时启动,与可用的 reduce 插槽一样多,其余 75 个将在队列中等待,直到有可用的 reduce 插槽.这提供了更好的负载平衡,因为如果某些任务比其他任务“更重”,即需要更多时间,那么它们将不会成为工作的瓶颈,因为其他 reduce slots 现在不会完成任务和等待正在执行队列中的任务。这也减轻了每个 reduce 任务的负载,因为 map 输出的数据被分散到更多任务。

如果我可以表达我的意见,我不确定这些因素是否总是理想的。通常,我使用大于 1.75(有时甚至 4 或 5)的因子,因为我处理的是大数据,并且我的数据不适合每台机器,除非我将这个因子设置得更高并且负载平衡也更好。

关于hadoop - Hadoop 上理想的 reducer 数量是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21980110/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com