hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据-6ren

hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据

转载作者：可可西里更新时间：2023-11-01 15:10:56

34

4

我的 HDFS 系统中有一个文件夹，其中包含使用 Snappy 编解码器压缩的文本文件。

通常，在 Hadoop Streaming 作业中读取 GZIP 压缩文件时，会自动解压。但是，使用 Snappy 压缩数据时不会发生这种情况，我无法处理数据。

我如何读取这些文件并在 Hadoop Streaming 中处理它们？

非常感谢。

更新:

如果我使用命令 hadoop fs -text file 它会起作用。该问题仅在使用 hadoop 流时发生，数据在传递到我的 python 脚本之前未解压缩。

最佳答案

你有没有在core-site配置snappy codec，比如:

<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>

关于hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41523721/

34

4

0

文章推荐： datetime - Apache Cassandra 时区问题

文章推荐： rest - 返回过期密码的良好 http 状态代码是什么？

文章推荐： c++ - 更改基本类型和类类型的返回值

snappy - 如何在 LZ4 和 Snappy 压缩之间做出决定？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4 个月前关闭。 Improve
snappy - lz4、lz4_hc、blosc、snappy、faSTLz 之间的比较
我有一个大小为 500 mb 的大文件，需要在一分钟内以最佳压缩比进行压缩。我发现这些算法适合我的使用。 lz4 lz4_hc snappy quicklz blosc 有人可以比较一下这些算法之间的
hadoop - 错误 : Could not initialize class org. xerial.snappy.Snappy
我使用 sqoop 1.4.6 将数据从 RDBMS 导入到 hdfs，使用 snappyCodec 作为压缩和 avro 作为文件格式。我安装了以下组件 Hadoop 2.8.0 Spark 2.1
java - Hadoop 发出的原生 snappy 压缩数据无法通过 java-snappy 版本提取
当我们在一些处理后使用 Spark 时，我将结果存储到文件中，并使用简单代码使用 snappy 编解码器: data.saveAsTextFile("/data/2014-11-29",classO
hadoop - 警告 snappy.LoadSnappy : Snappy native library not loaded
无论我做什么，我都无法摆脱这个错误。我知道 snappy 是一个快速的压缩/解压缩库，因此比其他选项更可取。我想使用这个库进行处理。据我所知，Google 在内部将其用于他们的 BigTables、M
python - 安装 python-snappy : snappy-c. h 时出错:没有这样的文件或目录
我正在使用亚马逊 ec2 ubuntu 11.04 服务器 sudo pip install python-snappy 我也尝试下载包并输入“sudo python setup.py instal
hadoop - native snappy 库不可用 : this version of libhadoop was built without snappy support
我在使用 MLUtils saveAsLibSVMFile 时遇到了上述错误。尝试了如下各种方法，但没有任何效果。 /* conf.set("spark.io.compression.codec",
apache-spark - java.lang.NoClassDefFoundError : Could not initialize class org. xerial.snappy.Snappy
我正在尝试从 DSE 5.0.11 运行 spark-shell。我可以成功创建和 RDD，但尝试查询它会产生: Caused by: java.io.IOException: java.lang.
scala - 关于 java.lang.NoClassDefFoundError : Could not initialize class org. xerial.snappy.Snappy
当我尝试编译、测试和运行 junit 测试时出现错误。我想使用 DataFrames 加载本地 Avro 文件，但出现异常: org.xerial.snappy.SnappyError: [FAIL
google-api - 如何通过 hadoop 集群为 Google Compute Engine 启用 Snappy/Snappy Codec
我正尝试在 Google Compute 引擎上针对我们位于 Google Cloud Storage 上的压缩数据运行 Hadoop Job。尝试通过 SequenceFileInputFormat
hadoop - 谁能解释一下 c000 在 c000.snappy.parquet 或 c000.snappy.orc 中的含义？
我已经搜索了每个文档，但仍然没有找到为什么有前缀以及以下文件命名约定中的 c000 是什么: 文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40
hadoop - 通过 hive 运行查询时 native snappy 库不可用 : this version of libhadoop was built without snappy support.
java.lang.RuntimeException: native snappy 库不可用:此版本的 libhadoop 是在没有 snappy 支持的情况下构建的。在 org.apache.ha
python - 如何在 Windows 10 上安装 snappy C 库以便在 Anaconda 中与 python-snappy 一起使用？
我要安装 parquet for python在 Windows 10 上的 Anaconda 2 安装中使用 pip。安装时我遇到了描述的错误 here ，安装程序找不到 snappy-c.h。
python - snappy/snappymodule.cc(31) : fatal error C1083: Cannot open include file: 'snappy-c.h' : No such file or directory
我无法安装 python-snappy 模块。我首先成功安装了 snappy 模块，但出现以下 python-snappy 错误。 (new-env) C:\Automation\test-autom
安卓画廊 "snappiness"
我想知道是否有办法增加股票 android 画廊的“活泼”。换句话说，我希望 throw 速度比默认情况下下降得更快。给定的 throw 应该导致更少的滚动并且应该更快地停止。查看源代码，它看起来就
json - 如何加载在HIVE中压缩的json snappy
我在HDFS中有一堆json快照压缩文件。它们是HADOOP快速压缩的(不是python，请参阅其他SO问题) 并具有嵌套结构。找不到将它们加载到的方法进入HIVE(使用json_tuple)？
java - Snappy:如何快速压缩字节缓冲区类型？
在我的 Java 代码中，我有 java.nio.ByteBuffer 类型的数据。我必须快速压缩它。通过导入 org.xerial.snappy.Snappy; 来使用 Snappy.compres
hadoop - Snappy 是可拆分的还是不可拆分的？
根据这个Cloudera post , Snappy 是可拆分的。 For MapReduce, if you need your compressed data to be splittable,
symfony - Knp Snappy 捆绑选项
我正在将 KnpSnappyBundle 用于我的 Symfony 项目，并且我正在尝试在我的配置文件中定义一些选项。但是，如果我设置，例如: knp_snappy: pdf:
scala - native snappy 库不可用
我正在尝试在 scala 中使用 spark 对一些数据帧进行大量连接。当我尝试获取此处生成的最终数据帧的计数时，出现以下异常。我正在使用 spark-shell 运行代码。我在启动 spark-s

首页

博学

6Ren·AI

商城

hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据