gpt4 book ai didi

hadoop - 我需要通过提供目录作为输入来修改map reduce中的常规wordcount程序

转载 作者:行者123 更新时间:2023-12-02 21:54:31 24 4
gpt4 key购买 nike

我不想提供一个文件作为输入,而是想提供一个目录,其中不能包含任何文件。我希望输出以某种方式编写

输入:

文件1文件2 File3

输出:

文件1文件2 File3

而每个文件的字数应在相应的文件中。要确定 map 中使用了哪个文件,我可以使用context.getInputSplit()。但是我怎样才能以我想要的方式写输出。

最佳答案

您可以使用来自映射器的输入拆分来识别它们来自的文件,然后将其与MultipleOutputs结合使用以写出与 reducer 分离的文件。

但是,您将需要将来自它的文件传递给reducer,因此您可能需要制作一个复合键对象,并编写自定义PartitionerWritableComparator,以将文件名和原始键一起携带。另请:Hadoop - composite key

关于hadoop - 我需要通过提供目录作为输入来修改map reduce中的常规wordcount程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15882419/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com