gpt4 book ai didi

apache - hadoop基准测试的最佳做法是什么?

转载 作者:行者123 更新时间:2023-12-02 21:12:53 25 4
gpt4 key购买 nike

我正在使用TestDFSIO基准测试hadoop I / O性能。
我正在使用的测试台是一个由3个数据节点和一个名称节点组成的小型虚拟集群。
每个虚拟机将具有6-8 GB RAM和100-250 GB HDD。

我想知道两件事:

  • 与我的设置有关的文件数(nrFIles)和每个文件的文件大小(fileSize)参数的值应该是什么,以便我们可以将小型集群的结果与标准大小的集群相关联,例如8-12 x 2 TB硬盘和64 GB RAM以及更高的处理速度。这样做是否正确?
  • 一般来说,基准测试Hadoop的最佳实践是什么?喜欢:
    推荐的集群规范是什么(数据节点,名称节点的规范),推荐的测试数据大小,测试台应具有哪些配置/规范才能获得符合实际hadoop应用程序
  • 的结果

    简而言之,我想了解正确的hadoop测试平台设置和正确的测试方法,以便使我的结果与生产集群相关。

    引用经过验证的工作将很有帮助。

    另一个问题是
    假设我有-nrFiles 15 -fileSize 1GB
    我发现映射任务的数量将等于为nrFiles提及的数量
    但是它们如何在3个数据节点之间分配?我不清楚15个 map task 的数量。就像15个文件一样,每个文件将有一个映射器在处理它?

    我没有找到任何文件或说明testDFSIO的工作原理。

    最佳答案

    您无法比较两个群集的结果。结果可能会因节点上的映射器数量,复制因子,网络等而异。
    群集规范将取决于您要使用它的目的。
    如果提供-nrFiles 15 -fileSize 1000,则每个1GB将创建15个文件。每个映射器将在一个文件上工作,因此将有15个映射任务。对于您的3节点群集,假设您在一个节点上只有1个映射器,那么将有5次波来写入完整数据。
    请参阅下面的链接以获取testDFSIO和其他基准测试工具:http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/

    关于apache - hadoop基准测试的最佳做法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39716995/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com