gpt4 book ai didi

hadoop - 如何在Hadoop内部将许多文件连接成一个文件,而没有映射或缩减

转载 作者:行者123 更新时间:2023-12-02 20:14:38 26 4
gpt4 key购买 nike

由于各种奇怪的原因,我试图将多个输入目录中的多个文件合并为一个文件。我最初的尝试是编写一个“nul”映射器和化简器,将输入复制到输出中,但是失败了。我最近的尝试是:

vcm_hadoop莱斯特 jar /vcm/home/apps/hadoop/contrib/streaming/hadoop-*-streaming.jar -input / cruncher / 201004/08/17/00 -output / lcuffcat9 -mapper / bin / cat -reducer NONE

但是无论如何我最终都会得到多个输出文件。有人知道我如何将所有内容都哄骗到一个输出文件中吗?

最佳答案

保留cat映射器,并使用单个cat reducer。确保将 reducer 的数量设置为一个。输出也将通过分类器。

您需要使用 reducer ,因为您只能建议映射器的数量。

如果您不希望对输出进行排序,则可以让您的映射器将文件名作为输入,从该文件中读取,然后将文件名和行号作为键输出,并将文件中的一行作为值输出,并让reducer抛出离开键并输出值。

关于hadoop - 如何在Hadoop内部将许多文件连接成一个文件,而没有映射或缩减,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2603804/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com