gpt4 book ai didi

hadoop - 并非所有节点都在集群中使用

转载 作者:可可西里 更新时间:2023-11-01 15:11:08 26 4
gpt4 key购买 nike

我有一个由 YARN 管理的 30 节点 Hadoop MR2 集群。当前有 10 个 Oozie 作业,每个作业运行一个 Map 程序。我注意到 30 个节点中只有 11 个被实际使用;只有 11 个节点有运行 Map 程序的容器。

我希望每个节点至少有一个容器在运行。为什么不是这样呢?是否由于输入拆分,以及基于我的 HDFS block 大小设置,输入数据最好只拆分为 11 个节点?如果是这样,调整 block 大小以便所有节点都得到利用是否更优化?

最佳答案

根据请求,资源管理器会在集群中分配所需的资源。这些资源将用于运行您的 map reduce 作业的容器。

如果有足够的可用资源,数据节点可以托管多个容器。不要忘记,在 hadoop 中,计算是转移到数据上的,而不是相反。运行 mapreduce 作业的数据节点很可能是存储您正在处理的数据的节点。依赖于数据 block 的输入拆分不直接影响参与计算的主机。

认为所有节点都应该运行是个坏主意。最好使用大数据是移动尽可能少的数据。

关于hadoop - 并非所有节点都在集群中使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39502246/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com