gpt4 book ai didi

hadoop - Yarn Terasort 对 7 和 14 个工作节点的执行时间相同

转载 作者:行者123 更新时间:2023-12-02 21:37:34 27 4
gpt4 key购买 nike

我有一个包含 15 个节点(1 个主节点和 14 个从节点)的 hadoop 集群,其中 HDFS 的复制因子为 3。我使用以下命令在 YARN 中运行了 10GB 的 TeraSort:

yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar terasort /terasort-input /terasort-output

在我完成了 14 个功能节点之后,我开始一次停用一个节点并再次运行 TeraSort 以查看执行时间如何变化。
我注意到,当我缩小规模时,执行时间实际上并没有太大变化,因此即使在 7 个从节点上我也有相似的执行时间。

JobHistory 记忆了这个值:

14 个奴隶: 已用时间:32 分 12 秒 ;平均 map 时间:4分钟,4秒;平均随机播放时间:14 分 56 秒;
平均合并时间:3分50秒;
平均减少时间:11 分钟,35 秒;

11个奴隶: 已用时间:30 分钟 , 6 秒;
平均 map 时间*:5分钟,2秒;
平均洗牌时间:6分9秒;
平均合并时间:8分52秒;
平均还原时间:11 分 39 秒;

8 个奴隶: 已用时间:32 分钟 , 15 秒;
平均 map 时间:4分29秒;
平均随机播放时间:13 分 48 秒;
平均合并时间:4分20秒;
平均减少时间:11分钟,11秒;

7个奴隶: 已用时间:30 分钟,6 秒 ;
平均 map 时间:4分28秒;
平均随机播放时间:7 分 26 秒;
平均合并时间:8 分 26 秒;
平均减少时间:11分钟,24秒;

问题:
  • 为什么不同数量的执行时间几乎相同
    工作节点?
  • 如何充分利用 Hadoop 集群以便作业运行
    14 个工作节点比 7 个节点更快?
  • 最佳答案

    1.请使用更大的数据量再次运行Terasort。

    2.将 block 大小更改为更大,例如256M。你设置了多少 reduce task ?如果太小,请将其设置得更大。

    关于hadoop - Yarn Terasort 对 7 和 14 个工作节点的执行时间相同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31086262/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com