gpt4 book ai didi

hadoop - 关闭 Hadoop MapReduce 作业的数据局部性

转载 作者:可可西里 更新时间:2023-11-01 15:28:41 26 4
gpt4 key购买 nike

我有一个 YARN 集群,集群中有几十个节点。我的程序是一个只有 map 的工作。它的 Avro 输入非常小,只有几百万行,但处理一行需要大量的 CPU 资源。我观察到许多 map task 在单个节点上运行,而其他节点不参与。这会导致某些节点非常慢并影响整体 HDFS 性能。我假设这种行为是由于 Hadoop 数据局部性造成的。

我很好奇是否可以将其关闭,或者是否有其他方法可以强制 YARN 在集群中更均匀地分配 map task ?

谢谢!

最佳答案

假设您不能轻松地在集群中更均匀地重新分配数据(肯定不是所有数据都在一个节点上吧?!)这似乎是放松局部性的简单方法:

yarn.scheduler.capacity.node-locality-delay

这个设置应该有一个默认值40,尝试将它设置为1看看这是否有预期的效果。也许甚至 0 也可以工作。

关于hadoop - 关闭 Hadoop MapReduce 作业的数据局部性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38875112/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com