gpt4 book ai didi

hadoop - 级联Hadoop文件加载-处理跨越换行符的记录的方法?

转载 作者:行者123 更新时间:2023-12-02 20:11:47 25 4
gpt4 key购买 nike

我正在与Hadoop一起处理一些分布在JVM实例群集中的文件。

我正在使用Cascading库连接到Hadoop。

我想解析一个文本文件,其中记录跨越换行符并以句点终止:(.)

(我知道这是如此之小,Hadoop的好处尚未实现-我正在开发一个演示)。

从我所看到的-我需要编写一个自定义InputFormat来处理此问题。

我的问题是-这样做更好吗?

(a)对我的输入数据进行预处理以去除换行符,然后在每条记录的末尾插入换行符吗?

(b)写一个自定义的InputFormat吗?

#“更好”-我的意思是减少工作,更多习惯。

最佳答案

实际上,您需要根据自己的需求来权衡每种方法的利弊。但是我个人建议如果要编写预处理应用程序只是为了转换文本文件的一种单一类型(记录跨越换行符并以句点终止),则建议编写一个自定义InputFormat和RecordReader以读取输入数据。如果您希望将来会有更多非传统的文本文件格式,那么预处理器将是理想的选择,以便预处理器可以将所有不同的格式转换为中间格式,然后再发送到Map / Reduce。

阅读此tutorial以了解如何编写自定义InputFormat和RecordReader。

关于hadoop - 级联Hadoop文件加载-处理跨越换行符的记录的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14150763/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com