- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个用 bzip2 压缩的维基百科转储(从 http://dumps.wikimedia.org/enwiki/ 下载),但我不想解压它:我想在动态解压缩时处理它。
我知道可以用普通的 Java 来做到这一点(例如 Java - Read BZ2 file and uncompress/parse on the fly ),但我想知道如何在 Apache Flink 中做到这一点?我可能需要的是类似 https://github.com/whym/wikihadoop 的东西但对于 Flink,而不是 Hadoop。
最佳答案
在 Apache Flink 中可以读取以下格式的压缩文件:
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.Lz4Codec
org.apache.hadoop.io.compress.SnappyCodec
从包名称中可以看出,Flink 使用 Hadoop 的 InputFormats 来完成此操作。这是使用 Flink 的 Scala API 读取 gz 文件的示例:(您至少需要 Flink 0.8.1)
def main(args: Array[String]) {
val env = ExecutionEnvironment.getExecutionEnvironment
val job = new JobConf()
val hadoopInput = new TextInputFormat()
FileInputFormat.addInputPath(job, new Path("/home/robert/Downloads/cawiki-20140407-all-titles.gz"))
val lines = env.createHadoopInput(hadoopInput, classOf[LongWritable], classOf[Text], job)
lines.print
env.execute("Read gz files")
}
Apache Flink 仅内置对 .deflate 文件的支持。添加对更多压缩编解码器的支持很容易做到,但尚未完成。
将 HadoopInputFormats 与 Flink 结合使用不会导致任何性能损失。 Flink 具有对 Hadoop 的 Writable
类型的内置序列化支持。
关于Apache Flink 的 BZip2 压缩输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29429216/
为了直接以bz2格式转储数据库,我尝试使用管道直接压缩转储文件,如下: mysqldump -u userName -p myDataBase | bzip2 -c > myDump.sql.bz2
首先是一些代码: ByteArrayOutputStream bos = new ByteArrayOutputStream(); CBZip2OutputStream zos = new CBZip
我想使用 tee 命令将 bzip 命令的 stdop 重定向到日志文件,但它不起作用并且在 tee 命令中为“-a”给出错误。请查看下面的错误, > bzip2 file -c 1> tee -a
我的项目使用的是带有 bzip2 的 Boost iostream 的旧版本。我现在正在尝试升级到 Boost 1.51。起初我没有用 bzip 编译,所以很明显我让链接器大喊 libboost_bz
有什么方法可以压缩 GZip、BZip、BZip2、xz 格式的目录。我正在构建一个命令行工具(使用 bash),我需要包含这些选项。 最佳答案 像这样的命令 tar czf output.tar.g
我通过在 Scala 中进行 Python 挑战系列来惩罚自己。 现在,挑战之一是读取使用 bzip 算法压缩的字符串并输出结果。 BZh91AY&SYA\xaf\x82\r\x00\x00\x01\
我在S3中有大约200个文件,例如a_file.json.bz2,这些文件的每一行都是JSON格式的记录,但有些字段是由pickle.dumps,例如一个日期时间字段。 bzip 压缩后每个文件约 1
我在S3中有大约200个文件,例如a_file.json.bz2,这些文件的每一行都是JSON格式的记录,但有些字段是由pickle.dumps,例如一个日期时间字段。 bzip 压缩后每个文件约 1
我一直在致力于从不同类型的文件格式(例如“zip,tar,tbz,tgz”)解压缩的任务。我能够为除 tbz 之外的所有内容执行此操作,因为 apache common compress 库提供了 B
我尝试通过 phpmyadmin 导出我的数据库,我可以在没有任何压缩的情况下导出它,但是当我选择任何类型的压缩(例如 gzip、bzip 或 zip)时,它最终会出现网络错误(Chrome),源文件
我是一名优秀的程序员,十分优秀!