gpt4 book ai didi

hadoop - 如何将 tar.gz 中的多个文件加载到 Pig 中

转载 作者:可可西里 更新时间:2023-11-01 16:52:44 26 4
gpt4 key购买 nike

场景:供应商将提供 tar.gz 格式的原始提要,其中包含制表符分隔格式的多个文件文件详细信息:a) One Hit 等级数据b) 多个查找文件c) (a) 的一个头文件

提要 (tar.gz) 将被摄取并登陆到 BDP 原始操作中。

查询:希望将这些数据从操作原始区域加载到 Pig 中以进行数据质量检查过程。如何实现?文件应该提取到 hadoop 中供我们使用还是可用的替代方案?请指教。谢谢!注意:任何示例脚本都会更有帮助

最佳答案

引用:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions

文档摘录:

处理压缩

压缩支持由加载/存储功能决定。 PigStorage 和 TextLoader 支持读取(加载)和写入(存储)的 gzip 和 bzip 压缩。 BinStorage 不支持压缩。

要使用 gzip 压缩文件,输入/输出文件需要有一个 .gz 扩展名。 Gzip 文件不能分割成多个 map ;这意味着创建的 map 数量等于输入位置中零件文件的数量。

A = load 'myinput.gz'; 
store A into 'myoutput.gz';

关于hadoop - 如何将 tar.gz 中的多个文件加载到 Pig 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31436084/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com