gpt4 book ai didi

hadoop - 如何在MapReduce中处理可拆分lzo文件的记录/行边界?

转载 作者:行者123 更新时间:2023-12-02 20:12:11 25 4
gpt4 key购买 nike

我有MapReduce输出的一些lzo压缩文件,它们将在另一份工作中使用。所有这些文件都已建立索引,并且我将LzoTextInputFormat设置为inputformat类。

我的问题是:

使用这些lzo文件时,如何处理记录/行边界?

一条记录/行可以被截断为两个相邻的压缩块。如果两个相邻的块在逻辑上划分为不同的Mapper,则很难确定不完整的记录/行并合并这两个部分。

有人可以帮助我吗?

最佳答案

使用SequenceFile。 SequenceFile写入带有同步标记的压缩块。结果,seqfile是可拆分的。

关于hadoop - 如何在MapReduce中处理可拆分lzo文件的记录/行边界?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13195397/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com