gpt4 book ai didi

Hadoop 透明地处理压缩,但不拆分 LZO

转载 作者:可可西里 更新时间:2023-11-01 14:59:43 25 4
gpt4 key购买 nike

在使用 TextInputFormat 时,Hadoop 似乎透明地处理压缩(这是什么时候引入的,我不记得是在 0.20.203 上)。不幸的是,当使用 LZO 压缩时,Hadoop 不使用 LZO 索引文件来使文件可拆分。但是,如果我将输入格式设置为 com.hadoop.mapreduce.LzoTextInputFormat,文件将被拆分。

是否可以配置 Hadoop 在使用 TextInputFormat 时解压缩 LZO 文件并拆分它们?

最佳答案

我刚遇到类似的问题,这是我的理解:

您想在代码中使用 LzoTextInputFormat。如果你想处理 lzo 和非 lzo 文件的混合,你应该将 lzo.text.input.format.ignore.nonlzo 设置为 false。在这种情况下,LzoTextInputFormat 将用于所有 lzo 文件,但它将默认为其他文件使用 TextInputFormat(它足够聪明,可以忽略索引文件)。

第一次提出这个问题时可能还没有这个功能,所以你可能已经知道这个解决方案了。

请看(关于ignore.nonlzo的评论): https://github.com/twitter/hadoop-lzo/blob/master/src/main/java/com/hadoop/mapreduce/LzoTextInputFormat.java

关于Hadoop 透明地处理压缩,但不拆分 LZO,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10236671/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com