gpt4 book ai didi

Hadoop mapper任务详细执行时间

转载 作者:可可西里 更新时间:2023-11-01 14:59:09 24 4
gpt4 key购买 nike

对于某个Hadoop MapReduce mapper任务,我已经有了mapper任务的完整执行时间。一般来说,映射器有三个步骤:(1)从 HDFS 或其他来源(如 Amazon S3)读取输入; (2)处理输入数据; (3)将中间结果写入本地磁盘。现在,我想知道是否有可能知道每一步花费的时间。

我的目的是得到 (1) 映射器从 HDFS 或 S3 读取输入需要多长时间的结果。结果仅表明映射器的读取速度。它更像是映射器的 I/O 性能; (2)mapper处理这些数据需要多长时间,更像是task的计算能力。

有人知道如何获得这些结果吗?

谢谢。

最佳答案

只需实现一个不发出任何内容的只读映射器。然后,这将指示读取(但不处理)每个拆分需要多长时间。

作为进一步的步骤,您可以定义一个在运行时传递给作业的变量(通过作业属性),它允许您执行以下操作之一(例如,根据枚举对象解析变量,然后打开值):

  • 只是阅读
  • 只是阅读和处理(但不写/发出任何东西)
  • 全力以赴

这当然假设您有权访问映射器代码。

关于Hadoop mapper任务详细执行时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20126266/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com