gpt4 book ai didi

configuration - 为什么 Hadoop 中正确的 reduce 数量是 0.95 或 1.75?

转载 作者:可可西里 更新时间:2023-11-01 14:21:37 26 4
gpt4 key购买 nike

hadoop 文档指出:

The right number of reduces seems to be 0.95 or 1.75 multiplied by ( * mapred.tasktracker.reduce.tasks.maximum).

With 0.95 all of the reduces can launch immediately and start transferring map outputs as the maps finish. With 1.75 the faster nodes will finish their first round of reduces and launch a second wave of reduces doing a much better job of load balancing.

这些值非常稳定吗?当您选择这些数字之间或它们之外的值时,结果是什么?

最佳答案

值(value)观应该是您的情况需要的值(value)观。 :)

以下是我对值(value)观的好处的理解:

.95 是为了最大限度地利用可用的 reducer 。如果 Hadoop 默认为单个 reducer,则不会有 reducing 的分布,导致它花费的时间比它应该的要长。 reducer 的增加和时间的减少几乎是线性的(在我有限的情况下)。如果在 1 个 reducer 上需要 16 分钟,那么在 8 个 reducer 上需要 2 分钟。

1.75 是一个尝试优化节点中机器性能差异的值。它将创建不止一次 reducer ,以便更快的机器将采用额外的 reducer ,而较慢的机器则不会。
这个数字 (1.75) 比 0.95 值更需要根据您的硬件进行调整。如果您有 1 台快机器和 3 台慢机器,也许您只需要 1.10。这个数字需要更多的实验才能找到适合您的硬件配置的值。如果 reducer 的数量太多,慢速机器将再次成为瓶颈。

关于configuration - 为什么 Hadoop 中正确的 reduce 数量是 0.95 或 1.75?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7247059/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com