gpt4 book ai didi

hadoop - MapReduce工作流程基准

转载 作者:行者123 更新时间:2023-12-02 21:48:39 26 4
gpt4 key购买 nike

任何基准测试机构都可以测试MapReduce工作流程吗?还是一般的BigData工作流基准测试来测试某些工作流系统(例如Oozie)的性能和准确性?

谢谢

最佳答案

最著名的MapReduce基准可能是Terasort。它需要大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模MapReduce作业,其中既包含映射器,也包含简化器。它包含在MapReduce中,因此您不必单独安装它。

第一步是使用MapReduce lib目录中的MapReduce示例jar使用Teragen生成输入数据:

hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>

第二步是对生成的输入数据运行 Terasort。此步骤花费的时间是基准测试的结果:
hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>

(可选)第三步是使用 Teravalidate验证输出结果是否正确:
$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>

比较该基准从一个群​​集到另一个群集的时间可能非常困难,但是对于比较同一群集内的更改(例如修改配置或添加新节点)可能很有用。

this blog entry中有 Terasort的深入描述。

关于hadoop - MapReduce工作流程基准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22949890/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com