gpt4 book ai didi

java - hadoop方法将输出发送到多个目录

转载 作者:可可西里 更新时间:2023-11-01 14:24:35 26 4
gpt4 key购买 nike

我的 MapReduce 作业按日期处理数据,需要将输出写入特定的文件夹结构。目前的期望是生成以下结构的输出:

2013
01
02
..

2012
01
02
..

等等

在任何时候,我最多只能获得 12 个月的数据,因此,我使用 MultipleOutputs 类在驱动程序中使用以下函数创建 12 个输出:

public void createOutputs(){
Calendar c = Calendar.getInstance();
String monthStr, pathStr;

// Create multiple outputs for last 12 months
// TODO make 12 configurable
for(int i = 0; i < 12; ++i ){
//Get month and add 1 as month is 0 based index
int month = c.get(Calendar.MONTH)+1;
//Add leading 0
monthStr = month > 10 ? "" + month : "0" + month ;
// Generate path string in the format 2013/03/etl
pathStr = c.get(Calendar.YEAR) + "" + monthStr + "etl";
// Add the named output
MultipleOutputs.addNamedOutput(config, pathStr );
// Move to previous month
c.add(Calendar.MONTH, -1);
}
}

在 reducer 中,我添加了一个清理函数以将生成的输出移动到适当的目录。

protected void cleanup(Context context) throws IOException, InterruptedException {
// Custom function to recursively process data
moveFiles (FileSystem.get(new Configuration()), new Path("/MyOutputPath"));
}

问题:在将输出从 _temporary 目录移动到输出目录之前,reducer 的清理功能正在执行。因此,上述函数在执行时看不到任何输出,因为所有数据仍在 _temporary 目录中。

实现所需功能的最佳方法是什么?感谢任何见解。

思考以下问题:

  • 有没有办法使用自定义输出提交器?
  • 链接另一项工作是否更好,还是这样做有点矫枉过正?
  • 有没有我不知道的更简单的替代方案..

这是cleanup函数的文件结构示例日志:

MyMapReduce: filepath:hdfs://localhost:8020/dev/test
MyMapReduce: filepath:hdfs://localhost:8020/dev/test/_logs
MyMapReduce: filepath:hdfs://localhost:8020/dev/test/_logs/history/job_201310301015_0224_1383763613843_371979_HtmlEtl
MyMapReduce: filepath:hdfs://localhost:8020/dev/test/_temporary
MyMapReduce: filepath:hdfs://localhost:8020/dev/test/_temporary/_attempt_201310301015_0224_r_000000_0
MyMapReduce: filepath:hdfs://localhost:8020/dev/test/_temporary/_attempt_201310301015_0224_r_000000_0/201307etl-r-00000
MyMapReduce: filepath:hdfs://localhost:8020/dev/test/_temporary/_attempt_201310301015_0224_r_000000_0/part-r-00000

最佳答案

您不需要第二份工作。我目前正在使用 MultipleOutputs 在我的一个程序中创建大量输出目录。尽管有超过 30 个目录,但我只能使用几个 MultipleOutputs 对象。这是因为你可以在写的时候设置输出目录,所以只在需要的时候才确定。如果你想以不同的格式输出,你实际上只需要多个 namedOutput(例如,一个带有键:Text.class,值:Text.class 和一个带有键:Text.class 和值:IntWritable.class)

设置:

MultipleOutputs.addNamedOutput(job, "Output", TextOutputFormat.class, Text.class, Text.class);

reducer 的设置:

mout = new MultipleOutputs<Text, Text>(context);

在reducer中调用mout:

String key; //set to whatever output key will be
String value; //set to whatever output value will be
String outputFileName; //set to absolute path to file where this should write

mout.write("Output",new Text(key),new Text(value),outputFileName);

您可以在编码时让一段代码确定目录。例如假设你想按月和年指定目录:

int year;//extract year from data
int month;//extract month from data
String baseFileName; //parent directory to all outputs from this job
String outputFileName = baseFileName + "/" + year + "/" + month;

mout.write("Output",new Text(key),new Text(value),outputFileName);

希望这对您有所帮助。

编辑:上面例子的输出文件结构:

Base
2013
01
02
03
...
2012
01
...
...

关于java - hadoop方法将输出发送到多个目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19820985/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com