gpt4 book ai didi

hadoop - ElasticMapReduce流式压缩输出

转载 作者:行者123 更新时间:2023-12-02 21:44:13 25 4
gpt4 key购买 nike

我正在运行流作业,使用用于 map 和reduce的python脚本。我使用boto库创建的作业流程。

我正在使用gzip输入文件。但是,如何创建gzip输出文件?

最佳答案

我使用Java处理gzip文件并以gzip压缩方式生成输出。我用下面的代码

    FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
FileOutputFormat.setOutputPath(job, output path));

我希望您会在python中找到类似的API /代码。

您可以生成gzip文件作为生成的输出。将'-D mapred.output.compress = true -D mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec'作为选项传递给流作业。

关于hadoop - ElasticMapReduce流式压缩输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26725277/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com