Apache Flink 的 BZip2 压缩输入-6ren

Apache Flink 的 BZip2 压缩输入

转载作者：行者123 更新时间：2023-12-02 11:50:57

25

4

我有一个用 bzip2 压缩的维基百科转储(从 http://dumps.wikimedia.org/enwiki/ 下载)，但我不想解压它:我想在动态解压缩时处理它。

我知道可以用普通的 Java 来做到这一点(例如 Java - Read BZ2 file and uncompress/parse on the fly )，但我想知道如何在 Apache Flink 中做到这一点？我可能需要的是类似 https://github.com/whym/wikihadoop 的东西但对于 Flink，而不是 Hadoop。

最佳答案

在 Apache Flink 中可以读取以下格式的压缩文件:

org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.Lz4Codec
org.apache.hadoop.io.compress.SnappyCodec

从包名称中可以看出，Flink 使用 Hadoop 的 InputFormats 来完成此操作。这是使用 Flink 的 Scala API 读取 gz 文件的示例:(您至少需要 Flink 0.8.1)

def main(args: Array[String]) {

  val env = ExecutionEnvironment.getExecutionEnvironment
  val job = new JobConf()
  val hadoopInput = new TextInputFormat()
  FileInputFormat.addInputPath(job, new Path("/home/robert/Downloads/cawiki-20140407-all-titles.gz"))
  val lines = env.createHadoopInput(hadoopInput, classOf[LongWritable], classOf[Text], job)

  lines.print

  env.execute("Read gz files")
}

Apache Flink 仅内置对 .deflate 文件的支持。添加对更多压缩编解码器的支持很容易做到，但尚未完成。

将 HadoopInputFormats 与 Flink 结合使用不会导致任何性能损失。 Flink 具有对 Hadoop 的 Writable 类型的内置序列化支持。

关于Apache Flink 的 BZip2 压缩输入，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29429216/

25

4

0

文章推荐： yaml - 由于 YAML 配置问题，无法启动 Filebeat

文章推荐： ios - 在 App Store 中将一个应用程序替换为另一个应用程序

文章推荐： ios - 集成新的Firebase..错误cocoapods

mysql - 如何将 bzip 的输出通过管道传输到 mysql，以将数据直接从 bzip 压缩文件恢复到数据库中
为了直接以bz2格式转储数据库，我尝试使用管道直接压缩转储文件，如下: mysqldump -u userName -p myDataBase | bzip2 -c > myDump.sql.bz2
java - BZIP-OutputStream 的问题
首先是一些代码: ByteArrayOutputStream bos = new ByteArrayOutputStream(); CBZip2OutputStream zos = new CBZip
linux - bzip 命令不适用于 "tee -a"
我想使用 tee 命令将 bzip 命令的 stdop 重定向到日志文件，但它不起作用并且在 tee 命令中为“-a”给出错误。请查看下面的错误， > bzip2 file -c 1> tee -a
c++ - 使用 bzip boost iostream - 未解析的符号
我的项目使用的是带有 bzip2 的 Boost iostream 的旧版本。我现在正在尝试升级到 Boost 1.51。起初我没有用 bzip 编译，所以很明显我让链接器大喊 libboost_bz
linux - 为什么不能使用 gzip、bzip、bzip2、xz 压缩目录？
有什么方法可以压缩 GZip、BZip、BZip2、xz 格式的目录。我正在构建一个命令行工具(使用 bash)，我需要包含这些选项。最佳答案像这样的命令 tar czf output.tar.g
java - 在 Scala 中处理 BZIP 字符串/文件
我通过在 Scala 中进行 Python 挑战系列来惩罚自己。现在，挑战之一是读取使用 bzip 算法压缩的字符串并输出结果。 BZh91AY&SYA\xaf\x82\r\x00\x00\x01\
apache-spark - 在 Spark 中处理 bzipped json 文件？
我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1
apache-spark - 在 Spark 中处理 bzipped json 文件？
我在S3中有大约200个文件，例如a_file.json.bz2，这些文件的每一行都是JSON格式的记录，但有些字段是由pickle.dumps，例如一个日期时间字段。 bzip 压缩后每个文件约 1
java - 如何使用 Apache Commons 解压缩 BZIP(不是 BZIP2)
我一直在致力于从不同类型的文件格式(例如“zip，tar，tbz，tgz”)解压缩的任务。我能够为除 tbz 之外的所有内容执行此操作，因为 apache common compress 库提供了 B
database - phpmyadmin 导出为 gzip、bzip 和 zip 时出现网络错误
我尝试通过 phpmyadmin 导出我的数据库，我可以在没有任何压缩的情况下导出它，但是当我选择任何类型的压缩(例如 gzip、bzip 或 zip)时，它最终会出现网络错误(Chrome)，源文件

首页

博学

6Ren·AI

商城

Apache Flink 的 BZip2 压缩输入