gpt4 book ai didi

hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据

转载 作者:可可西里 更新时间:2023-11-01 15:10:56 34 4
gpt4 key购买 nike

我的 HDFS 系统中有一个文件夹,其中包含使用 Snappy 编解码器压缩的文本文件。

通常,在 Hadoop Streaming 作业中读取 GZIP 压缩文件时,会自动解压。但是,使用 Snappy 压缩数据时不会发生这种情况,我无法处理数据。

我如何读取这些文件并在 Hadoop Streaming 中处理它们?

非常感谢。

更新:

如果我使用命令 hadoop fs -text file 它会起作用。该问题仅在使用 hadoop 流时发生,数据在传递到我的 python 脚本之前未解压缩。

最佳答案

你有没有在core-site配置snappy codec,比如:

<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>

关于hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41523721/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com