gpt4 book ai didi

hadoop - Hadoop MapReduce映射器任务从HDFS或S3读取输入文件所花费的时间

转载 作者:行者123 更新时间:2023-12-02 21:51:41 25 4
gpt4 key购买 nike

我正在运行Hadoop MapReduce作业,正在从HDFS或Amazon S3获取输入文件。我想知道是否有可能知道一个映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道仅用于读取数据的时间,不包括那些数据的映射器处理时间。对于特定的映射器任务,我正在寻找的结果约为MB /秒,这表明映射器可以从HDFS或S3中读取的速度。这有点像I / O性能。

谢谢。

最佳答案

也许您可以只使用单元映射器,并将reducer的数量设置为零。这样,在仿真中唯一要做的就是I / O,就不会进行排序和改组。或者,如果您特别希望专注于阅读,则可以使用不写入任何输出的函数来替换单位映射器。
接下来,我将设置mapred.jvm.reuse=-1,以消除jvm的开销。这不是完美的方法,但它可能是拥有快速构想的最简单方法。如果您想精确地做到这一点,我会考虑看看如何实现自己的hadoop计数器,但是目前我还没有经验。

关于hadoop - Hadoop MapReduce映射器任务从HDFS或S3读取输入文件所花费的时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20112277/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com