gpt4 book ai didi

apache-pig - 如何在 Apache Pig 中使用 PigStorage 存储压缩文件?

转载 作者:行者123 更新时间:2023-12-04 02:44:27 26 4
gpt4 key购买 nike

Apache Pig v0.7 可以读取 gzipped 文件而无需我额外的努力,例如:

MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url);

我可以处理该数据并将其输出到磁盘中:
PerUser = GROUP MyData BY user;
UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count;
STORE UserCount INTO '/tmp/usercount' USING PigStorage(',');

但输出文件未压缩:
/tmp/usercount/part-r-00000

有没有办法告诉 STORE命令以gzip格式输出内容?请注意,理想情况下,我想要一个适用于 Pig 0.6 的答案,因为我希望使用 Amazon Elastic MapReduce;但如果有任何版本的 Pig 的解决方案,我想听听。

最佳答案

有两种方式:

  • 正如上面在存储中提到的,你可以说输出目录为
    usercount.gz
    STORE UserCount INTO '/tmp/usercount.gz' USING PigStorage(',');
  • 在脚本中设置压缩方法。
    set output.compression.enabled true;
    set output.compression.codec org.apache.hadoop.io.compress.GzipCodec;
  • 关于apache-pig - 如何在 Apache Pig 中使用 PigStorage 存储压缩文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4968843/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com