- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我的 HDFS 系统中有一个文件夹,其中包含使用 Snappy 编解码器压缩的文本文件。
通常,在 Hadoop Streaming 作业中读取 GZIP 压缩文件时,会自动解压。但是,使用 Snappy 压缩数据时不会发生这种情况,我无法处理数据。
我如何读取这些文件并在 Hadoop Streaming 中处理它们?
非常感谢。
更新:
如果我使用命令 hadoop fs -text file
它会起作用。该问题仅在使用 hadoop 流时发生,数据在传递到我的 python 脚本之前未解压缩。
最佳答案
你有没有在core-site
配置snappy codec,比如:
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
关于hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41523721/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 4 个月前关闭。 Improve
我有一个大小为 500 mb 的大文件,需要在一分钟内以最佳压缩比进行压缩。我发现这些算法适合我的使用。 lz4 lz4_hc snappy quicklz blosc 有人可以比较一下这些算法之间的
我使用 sqoop 1.4.6 将数据从 RDBMS 导入到 hdfs,使用 snappyCodec 作为压缩和 avro 作为文件格式。我安装了以下组件 Hadoop 2.8.0 Spark 2.1
当我们在一些处理后使用 Spark 时,我将结果存储到文件中,并使用简单代码使用 snappy 编解码器: data.saveAsTextFile("/data/2014-11-29",classO
无论我做什么,我都无法摆脱这个错误。我知道 snappy 是一个快速的压缩/解压缩库,因此比其他选项更可取。我想使用这个库进行处理。据我所知,Google 在内部将其用于他们的 BigTables、M
我正在使用亚马逊 ec2 ubuntu 11.04 服务器 sudo pip install python-snappy 我也尝试下载包并输入“sudo python setup.py instal
我在使用 MLUtils saveAsLibSVMFile 时遇到了上述错误。尝试了如下各种方法,但没有任何效果。 /* conf.set("spark.io.compression.codec",
我正在尝试从 DSE 5.0.11 运行 spark-shell。我可以成功创建和 RDD,但尝试查询它会产生: Caused by: java.io.IOException: java.lang.
当我尝试编译、测试和运行 junit 测试时出现错误。 我想使用 DataFrames 加载本地 Avro 文件,但出现异常: org.xerial.snappy.SnappyError: [FAIL
我正尝试在 Google Compute 引擎上针对我们位于 Google Cloud Storage 上的压缩数据运行 Hadoop Job。尝试通过 SequenceFileInputFormat
我已经搜索了每个文档,但仍然没有找到为什么有前缀以及以下文件命名约定中的 c000 是什么: 文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40
java.lang.RuntimeException: native snappy 库不可用:此版本的 libhadoop 是在没有 snappy 支持的情况下构建的。 在 org.apache.ha
我要安装 parquet for python在 Windows 10 上的 Anaconda 2 安装中使用 pip。 安装时我遇到了描述的错误 here ,安装程序找不到 snappy-c.h。
我无法安装 python-snappy 模块。我首先成功安装了 snappy 模块,但出现以下 python-snappy 错误。 (new-env) C:\Automation\test-autom
我想知道是否有办法增加股票 android 画廊的“活泼”。换句话说,我希望 throw 速度比默认情况下下降得更快。给定的 throw 应该导致更少的滚动并且应该更快地停止。 查看源代码,它看起来就
我在HDFS中有一堆json快照压缩文件。 它们是HADOOP快速压缩的(不是python,请参阅其他SO问题) 并具有嵌套结构。 找不到将它们加载到的方法 进入HIVE(使用json_tuple)?
在我的 Java 代码中,我有 java.nio.ByteBuffer 类型的数据。我必须快速压缩它。通过导入 org.xerial.snappy.Snappy; 来使用 Snappy.compres
根据这个Cloudera post , Snappy 是可拆分的。 For MapReduce, if you need your compressed data to be splittable,
我正在将 KnpSnappyBundle 用于我的 Symfony 项目,并且我正在尝试在我的配置文件中定义一些选项。但是,如果我设置,例如: knp_snappy: pdf:
我正在尝试在 scala 中使用 spark 对一些数据帧进行大量连接。当我尝试获取此处生成的最终数据帧的计数时,出现以下异常。我正在使用 spark-shell 运行代码。 我在启动 spark-s
我是一名优秀的程序员,十分优秀!