gpt4 book ai didi

hadoop - 在 Apache pig 中读取压缩 (.xz) 文件

转载 作者:可可西里 更新时间:2023-11-01 16:11:19 25 4
gpt4 key购买 nike

我正在尝试读取使用 hadoop-xz 压缩的 .xz 文件使用 pig 脚本的编解码器。

我试过的示例代码是,

REGISTER hadoop-xz-1.4.jar
SET output.compression.enabled true;
SET output.compression.codec io.sensesecure.hadoop.xz.XZCodec;

msg = LOAD 'pigtest/newXZ.xz' USING PigStorage();
STORE msg INTO 'pigtest/output' USING PigStorage();
DUMP msg;

结果仍然是压缩格式。我做错了吗,还是我必须在 pig 里面使用 XZInputStream

运行环境为HortonWorks Sandbox 2.2 (Hue)

最佳答案

取决于你想做什么。

您似乎想要读取 XZ 文件,所以我假设您需要设置输入编解码器而不是输出编解码器。

我不是 PIG 用户,但据我所知,它无法轻松处理自定义压缩(例如与 Hive 和 Streaming 不同)。

关于hadoop - 在 Apache pig 中读取压缩 (.xz) 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30231567/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com