gpt4 book ai didi

hadoop - 在EC2上对Hadoop进行基准测试可提供相同的性能

转载 作者:行者123 更新时间:2023-12-02 21:46:03 24 4
gpt4 key购买 nike

我正在尝试在Hadoop上对EC2进行基准测试。我正在使用具有1个主设备和5个从设备的1GB文件。当我像dfs.blocksize这样更改1m, 64m, 128m, 500m.时,我期望在128m时达到最佳性能,因为文件大小为1GB,并且有5个从属。但是令我惊讶的是,无论块大小如何,花费的时间或多或少都落在同一范围内。我如何获得这种奇怪的表现?

最佳答案

首先要考虑最可能的解释的几件事

  • 检查您是否正确传入系统变量以控制作业的拆分大小,如果不进行更改,则不会更改映射器的数量(可以在jobtracker UI中进行检查)。如果您每次实际上都没有更改任何内容,则得到的映射器数量相同。要更改拆分大小,请使用系统 Prop mapred.min.split.sizemapred.max.split.size
  • 确保您确实在访问集群,并且不会意外地在本地使用1个进程
  • 运行
  • 请注意(与Spark不同),Hadoop的作业初始化时间令人恐惧。 IME大约需要20秒,因此对于1 GB的数据来说,您实际上并没有看到太多的时差,因为大部分工作都花在初始化上。
  • 关于hadoop - 在EC2上对Hadoop进行基准测试可提供相同的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25256958/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com