gpt4 book ai didi

hadoop - 多输出hadoop

转载 作者:可可西里 更新时间:2023-11-01 16:27:28 24 4
gpt4 key购买 nike

<分区>

Possible Duplicate:
MultipleOutputFormat in hadoop

如何更改示例中 WordCount.java 程序中的代码,以便将每个文件的 WordCounts 输出放在单独的文件中。也就是说,不是在该默认 part-00000 文件中对所有文件进行单个 wordcount。此外,输出文件始终具有名称 part-00000 或沿这些行的其他名称,我可以为该文件选择我想要的输出文件名吗?如果可以,如何选择?

我想我必须以某种方式在 main 中配置它,但我已经搜索过这个但我找不到如何做到这一点?

  public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
Job job = new Job(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}

感谢任何帮助,泰德

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com