gpt4 book ai didi

hadoop - 如何在hadoop中获取多输出

转载 作者:行者123 更新时间:2023-12-02 21:54:11 26 4
gpt4 key购买 nike

我是Hadoop的新手,现在必须处理输入文件。我要处理每一行,并且每一行的输出应该是一个文件。

我上网冲浪,发现MultipleOutputFormat和generateFileNameForKeyValue。

但是大多数人都是用JobConf类编写的。当我使用Hadoop 0.20.1时,我认为Job类发生了。而且我不知道如何使用Job类通过键生成多个输出文件。

有人可以帮我吗?

最佳答案

Eclipse插件主要用于针对真实或“伪”集群提交和监视作业以及与HDFS交互。

如果您以本地模式运行,那么我认为插件不会为您带来任何好处-鉴于您的工作将在单个JVM中运行。考虑到这一点,我想说在Eclipse项目的类路径中包括最新的1.x hadoop-core。

无论哪种方式MultipleOutputFormat都没有被移植到新的mapreduce包中(无论是在1.1.2还是2.0.4-alpha中),因此您需要自己移植它或寻找另一种方式(也许MultipleOutputs-Javadoc page has some usage on using MultipleOutputs)

关于hadoop - 如何在hadoop中获取多输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16637402/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com