gpt4 book ai didi

hadoop - MapReduce 一对一处理多个输入文件

转载 作者:可可西里 更新时间:2023-11-01 15:59:38 28 4
gpt4 key购买 nike

请澄清

我有一组具有特定名称的输入文件(比如 10 个)。我一次对所有文件运行字数统计作业(输入路径是文件夹)。我期待 10 个与输入文件同名的输出文件。 IE。应计算 File1 输入,并应将其存储在名称为“file1”的单独输出文件中。依此类推所有文件。

最佳答案

有两种方法可以实现多输出

  1. 使用 MultipleOutputs 类 - 请参阅此文档以获取有关 multipleclassoutput (https://hadoop.apache.org/docs/r2.6.3/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html) 的信息,有关如何实现的更多信息,请参阅此 http://appsintheopen.com/posts/44-map-reduce-multiple-outputs

  2. 另一个选项是使用 LazyOuputFormat,但是,它与多个输出结合使用,有关其实现的更多信息,请参阅此 ( https://ssmolen.wordpress.com/2014/07/09/hadoop-mapreduce-write-output-to-multiple-directories-depending-on-the-reduce-key/)。

我觉得结合使用 LazyOutputFormat 和 MultipleOuputs 类是更好的方法。

关于hadoop - MapReduce 一对一处理多个输入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39559830/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com