gpt4 book ai didi

hadoop - 将 PIg 的 MultiStorage 用于嵌套结构

转载 作者:可可西里 更新时间:2023-11-01 16:02:57 26 4
gpt4 key购买 nike

假设我有以下记录集(存储为 Parquet ):

01, John, 250
01, John, 260
01, Daniel, 300
01, Daniel, 400
02, John, 250
02, John, 260
02, Daniel, 300
02, Daniel, 400

如何使用 Pig 来创建这种嵌套的文件夹结构

-- 01
-- * Daniel
-- * John
-- 02
-- * Daniel
-- * John

我知道我可以用

MultiStorage('output/pig_results', '0', 'none', ',');

按第一列动态拆分数据,但如何按两列动态拆分数据?此外,当我使用 MultiStorage 时,输出为 csv,我想保存我的 Parquet 存储

最佳答案

您可以创建一个由前两列分区的 Hive 表,并使用您的 pig 脚本插入您的数据,您将以这种方式获得目录:

-- a=01/
----- b=Daniel/
----- b=John/
-- a=02/
----- b=Daniel/
----- b=John/

请注意,以上都是目录,文件可能驻留在 b=Danielb=John 中。

关于hadoop - 将 PIg 的 MultiStorage 用于嵌套结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37672451/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com