gpt4 book ai didi

hadoop - 为什么map数量增加会影响hadoop上的带宽和集群利用率?

转载 作者:可可西里 更新时间:2023-11-01 14:54:42 27 4
gpt4 key购买 nike

最近在看hadoop: the definitive guide这本书,这部分是两个集群使用distcp复制数据,看到评论:“当数据量很大时,有必要限制 map 数量以限制带宽和集群利用率”

我不明白为什么?我认为我们应该利用尽可能宽的带宽来提高集群的效率。那么我们为什么要限制 map 的数量呢?

最佳答案

当然有更多的没有。映射器的数量帮助我们实现更高的并行度,但如果它太高,它就会开始成为瓶颈。例如,如果您的映射器比没有的多得多。在你的奴隶上可用的 CPU 插槽中,大多数映射器将处于等待状态。同样,您可能会耗尽内存并可能面临网络拥塞。此外,创建那么多 InputSplit 和创建如此多的 map 将花费更多时间。因此,映射器的数量应该相当高。不太高,也不太低。实际上框架在正常情况下会为您完成这些工作,因此您不必担心。但有时您可能想根据自己的要求自行完成,但请记住上述事项。

HTH

关于hadoop - 为什么map数量增加会影响hadoop上的带宽和集群利用率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16454447/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com