gpt4 book ai didi

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

转载 作者:可可西里 更新时间:2023-11-01 14:58:43 24 4
gpt4 key购买 nike

我在 Mesos 0.14 上运行 Hadoop 1.2.1。我的目标是记录输入数据大小、运行时间、cpu 使用情况、内存使用情况等,以便稍后进行优化。除了数据大小之外,所有这些都是使用 Sigar 获得的。

有什么方法可以获取正在运行的任何作业的输入数据大小?

例如,当我运行 hadoop 示例的 terasort 时,我需要在作业实际运行之前获取 teragen 生成的数据大小。如果我正在运行 Wordcount example ,我需要获取 wordcount 输入文件大小。我需要自动获取数据大小,因为我无法知道稍后将在该框架内运行什么作业。<​​/p>

我正在使用 Java 编写一些 mesos 库代码。最好,我想在 MesosExecutor 类中获取数据大小。出于某种原因,升级 Hadoop/Mesos 不是一种选择。

任何建议或相关 API 将不胜感激。谢谢。

最佳答案

hadoop fs -dus 是否满足您的要求?在将作业提交到 hadoop 之前,计算输入文件的大小并将其作为参数传递给您的执行程序。

关于hadoop - Mesos 和 Hadoop : How to get the running job input data size?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26214016/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com