gpt4 book ai didi

hadoop - 具有纯文本输入和 avro 输出的 mapreduce 作业

转载 作者:可可西里 更新时间:2023-11-01 14:16:42 24 4
gpt4 key购买 nike

我对将 Avro 与 map reduce 结合使用感到非常困惑,找不到好的教程可以遵循。

当输入和输出都是 Avro 数据文件时,AvroJob 和 AvroMapper 这样的类似乎是为解决问题而设计的。如果您的输入只是纯文本呢?

具体来说:

我的映射器将 LongWritable 键和文本值作为输入。它发出文本键和 MyAvroRecord 值。

我的缩减器将文本键和 MyAvroRecords 的迭代器作为输入,并发出文本键和 MyAvroRecord 值。

如何获得将这些文本键和 MyAvroRecord 值写入文件的 OutputFormat?

干杯,戴夫

最佳答案

好的,所以我想通了。

我需要一个生成 AvroKey 键和 AvroValue 值的映射器,而不是输出 Text 键和 MyAvroRecord 值的映射器。这能够将其结果直接提供给 AvroReducer,我可以只使用 AvroJob.setOutputSchema() 来处理输出(我根本不需要实现 OutputFormat)。

关于hadoop - 具有纯文本输入和 avro 输出的 mapreduce 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9713031/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com