gpt4 book ai didi

hadoop - Hadoop Map减少多节点集群上的程序

转载 作者:行者123 更新时间:2023-12-02 21:44:14 25 4
gpt4 key购买 nike

我有关于Hadoop Map reduce的查询。我们有3个集群,每个集群有5个节点。现在,如果我编写了Map Reduce程序并想运行它以处理所有3个群集上的数据。我是否仅需要在1个节点上运行此Map Reduce程序,还是需要在所有节点上运行Map Reduce程序?最后,它需要处理我的3个集群上的所有数据。

最佳答案

您只需要在一个节点上运行MR程序,MR框架就会在集群中的所有从属节点上执行它。

MR框架的优点之一是执行基于数据局部性,计算移至存在数据的节点。由于您有3个集群,因此要获得良好的性能,最好在所有这三个集群上部署或运行​​应用程序。

如果您的群集位于同一网络中,则也可以在1个群集中处理这3个群集的数据。您不应该这样做,因为它会降低性能。其他集群中的数据需要带到实际执行发生的集群中。这可以使用HDFS URI来实现

Eg : Cluster A hdfs URI : hdfs://nnhost-clusterA:8020/inputfile
Cluster B HDFS URI : hdfs://nnhost-clusterB:8020/input

通过提供完整的HDFS URI,您可以从群集C访问上述两个群集A&B中的数据。

关于hadoop - Hadoop Map减少多节点集群上的程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26691416/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com