gpt4 book ai didi

python-2.7 - Hadoop:单节点与集群性能

转载 作者:行者123 更新时间:2023-12-02 21:51:08 25 4
gpt4 key购买 nike

我在具有3个节点(1个主节点和2个从属节点)的Hadoop集群上依次运行三个MapReduce作业(一个的输出是对另一个的输入)。

显然,单个作业在单个节点群集上完成所需的总时间比上面的要少很多。
可能是什么原因?是网络延迟吗?它在100Mbps以太网上运行。如果增加节点数会有所帮助吗?

我正在使用Hadoop Streaming,我的代码在python2.7中。

最佳答案

MapReduce并不是真的要处理这么小的输入数据集。 MapReduce框架必须确定哪些节点将运行任务,然后启动JVM来运行每个单独的Map和Reduce任务(任务的数量取决于数据集的大小)。那通常有几十秒的等待时间。在节点之间运送非本地数据也很昂贵,因为它涉及通过有线发送数据。对于这么小的数据集,在分布式集群中设置MapReduce作业的开销可能比作业本身的运行时要高。在单个节点上,您仅会看到在本地计算机上启动任务的开销,而不必通过网络进行任何数据复制,这就是作业在单个计算机上完成得更快的原因。如果您有多个千兆字节的文件,则可以在多台计算机上看到更好的性能。

关于python-2.7 - Hadoop:单节点与集群性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20813532/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com