gpt4 book ai didi

hadoop - 如何调整 mapred.reduce.parallel.copies?

转载 作者:可可西里 更新时间:2023-11-01 14:13:53 27 4
gpt4 key购买 nike

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用 mapred.reduce.parallel.copies。

该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点?我们应该寻找什么?我们如何检测到过度并行化?

最佳答案

为了做到这一点,您基本上应该寻找 4 个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值,您可以推断出您正在突破极限。例如,如果您将“mapred.reduce.parallel.copies”的值设置为比可用核心数高得多的值,您最终会遇到太多处于等待状态的线程,基于此属性 Threads将被创建以获取 map 输出。除此之外,网络可能会不堪重负。或者,如果要洗牌的中间输出太多,你的工作会变慢,因为在这种情况下你需要基于磁盘的洗牌,这比基于 RAM 的洗牌慢。根据您的 RAM 为“mapred.job.shuffle.input.buffer.percent”选择一个明智的值(默认为 Reducer 堆的 70%,这通常是好的)。所以,这些东西会告诉你你是否过度并行化。还有很多其他的事情你应该考虑。我建议您阅读“Hadoop 权威指南”的第 6 章。

为了提高工作效率,您可以采取一些措施,例如使用组合器来限制数据传输、启用中间压缩等。

HTH

P.S:答案不是很具体,只是“mapred.reduce.parallel.copies”。它告诉您如何调整您的工作。实际上,仅设置此属性不会对您有太大帮助。您还应该考虑其他重要属性。

关于hadoop - 如何调整 mapred.reduce.parallel.copies?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8642643/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com