gpt4 book ai didi

Hadoop 0.2 : How to read outputs from TextOutputFormat?

转载 作者:可可西里 更新时间:2023-11-01 14:27:19 26 4
gpt4 key购买 nike

我的 reducer 类使用 TextOutputFormat(Job 给出的默认 OutputFormat)生成输出。我喜欢在 MapReduce 作业完成后使用此输出来聚合输出。除此之外,我喜欢用 TextInputFormat 写出聚合信息,以便 MapReduce 任务的下一次迭代可以使用此过程的输出。谁能给我一个关于如何使用 TextFormat 进行书写和阅读的示例?顺便说一句,我使用 TextFormat 而不是 Sequence 的原因是互操作性。任何软件都应该使用输出。

最佳答案

暂时不要排除序列文件;它们使链接 MapReduce 作业变得快速和容易,如果您需要以文本格式输出它们,您可以使用“hadoop fs -text filename”来做其他事情。

但是,回到您最初的问题:要使用 TextInputFormat,请将其设置为作业中的输入格式,然后使用 TextInputFormat.setInputPaths 指定应将哪些文件用作输入。映射器的键应该是一个 LongWritable,值是一个文本。

对于使用TextOutputFormat作为输出,在Job中将其设置为输出格式,然后使用TextOuputFormat.setOutputPath指定输出路径。您的缩减器(或映射器,如果它是仅限映射的作业)需要使用 NullWritable 作为输出键的类型,以获取每行或每行一个值的文本表示将是键的文本表示和由制表符分隔的值(默认情况下,您可以通过将“mapred.textoutputformat.separator”设置为不同的分隔符来更改它)。

关于Hadoop 0.2 : How to read outputs from TextOutputFormat?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2606060/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com