gpt4 book ai didi

Hadoop 序列文件压缩

转载 作者:行者123 更新时间:2023-12-02 21:37:00 24 4
gpt4 key购买 nike

尝试运行作业时,出现以下错误:

SequenceFile doesn't work with GzipCodec without native-hadoop code!

我已经在几个地方阅读了我需要获取 native hadoop 代码的内容,但这对我来说安装起来很痛苦。如果有一个参数我可以在某处设置(core-site、hdfs-site、mapred-site...等)然后重新启动 hdfs,那就太好了。

我尝试在 mapred-site.xml 中设置以下属性,但没有任何运气:
mapred.map.output.compress.codec
mapreduce.output.fileoutputformat.compress.codec

有没有办法将其从 Gzip 更改为不需要 native 代码的另一种压缩格式?

Hadoop版本:CDH 5.2.0
操作系统:CentOS 6.6

最佳答案

您可以使用 LZO 或 Snappy https://code.google.com/p/hadoop-snappy/用于压缩数据。您应该将这些配置添加到您的 mapred-site.xml

<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>

<property>
<name>mapred.map.output.compression.codec</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

关于Hadoop 序列文件压缩,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31521128/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com