gpt4 book ai didi

hadoop - 生成 HDFS 序列文件

转载 作者:可可西里 更新时间:2023-11-01 16:18:59 25 4
gpt4 key购买 nike

我正在使用 org.apache.pig.PigServer 类从 Java 运行 pig 脚本。我需要以 gz 压缩的序列格式输出我的文件。这就是我所做的:

effectivePigProperties.put("mapred.output.compress", "true");
effectivePigProperties.put("mapred.output.format.class", "org.apache.hadoop.mapred.SequenceFileOutputFormat");
effectivePigProperties.put("mapred.output.compression.type", "SequenceFile.CompressionType.BLOCK");
effectivePigProperties.put("mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec");

输出在 gz 中,但不是序列文件。我错过了什么?

最佳答案

虽然 Apache Pig 包(也不是它的 Piggybank)中还没有出现,但 Twitter 的 Elephant Bird 库提供了一个 SequenceFileStorage implementation你可以利用。

关于hadoop - 生成 HDFS 序列文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12864131/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com