gpt4 book ai didi

hadoop - Rumen 的 sample 输出或 Gridmix 的 sample 输入

转载 作者:可可西里 更新时间:2023-11-01 14:55:35 29 4
gpt4 key购买 nike

我对使用 Hadoop 等大数据工具还很陌生。我想在 Yarn/或 Yarn Simulator 上执行公开可用的集群跟踪 ( https://github.com/google/cluster-data)。

一种方法是通过 Gridmix 将输入馈送到 Yarn。

Gridmix ( https://hadoop.apache.org/docs/r2.8.3/hadoop-gridmix/GridMix.html) 接受输入的格式基本上是 Rumen 的输出。Rumen ( https://hadoop.apache.org/docs/r2.8.3/hadoop-rumen/Rumen.html ) 将从 map-reduce 集群生成的 JobHistory 日志作为输入。

google trace 不是 map-reduce trace。但是,我想知道是否可以将其转换为与 Grdimix 作为输入相同的格式,然后我可以使用 Grdmix。

谁能告诉我 Gridmix 的输入格式(或 Rumen 的输出格式)?

或者建议我用另一种方法来做我想做的事?

谢谢。

最佳答案

Rumen 的输出包含两个文件:1. 作业跟踪文件,2. 集群拓扑文件;

这两个文件都是json格式,job-trace文件格式如下:

{
"jobID" : "job_1546949851050_53464",
"user" : "mammut",
"computonsPerMapInputByte" : -1,
"computonsPerMapOutputByte" : -1,
"computonsPerReduceInputByte" : -1,
"computonsPerReduceOutputByte" : -1,
"submitTime" : 1551801585141,
"launchTime" : 1551801594958,
"finishTime" : 1551801630228,
"heapMegabytes" : 200,
"totalMaps" : 2,
"totalReduces" : 1,
"outcome" : "SUCCESS",
"jobtype" : "JAVA",
"priority" : "NORMAL",
"directDependantJobs" : [ ],
"mapTasks" : [ {
"inputBytes" : 25599927,
...}]
...
}

并且,集群拓扑如下:

{
"name" : "<root>",
"children" : [ {
"name" : "rack-01",
"children" : [ {
"name" : "",
"children" : null
}, {
"name" : "",
"children" : null
}, {
"name" : "",
"children" : null
} ]
}, {
"name" : "default-rack",
"children" : [ {
"name" : "x",
"children" : null
} ]
} ]
}

关于hadoop - Rumen 的 sample 输出或 Gridmix 的 sample 输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49578816/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com