gpt4 book ai didi

hadoop - 在 Pig 中合并两个数据集

转载 作者:可可西里 更新时间:2023-11-01 14:22:09 27 4
gpt4 key购买 nike

我有一个 pig 脚本,我在其中加载一个数据集,将其分成两个单独的数据集,然后执行一些计算,最后向其中添加另一个计算字段。现在我想加入这两个数据集。

A = LOAD '/user/hdfs/file1' AS (a:int, b:int);

A1 = FILTER A BY a > 100;
A2 = FILTER A BY a <= 100 AND b > 100;

-- Now I do some calculation on A1 and A2

所以基本上,在计算之后,这里是两者的模式:

{A1 : {a:int, b:int, type:chararray}}
{A2: {a:int, b:int, type:chararray}}

现在,在我将其转储回 HDFS 之前,我想将这两个数据集合并回去。类似于 SQL 中的 UNION ALL。我该怎么做?

最佳答案

UNION 应该适合您 - 但您的原始模式与显示的输出不匹配(b 作为字符数组加载,后来变成 int) - 我假设这是一个错字。

如果元组中的字段顺序不同,则可以在执行 UNION 时使用 ONSCHEMA 关键字:

A_MERGED = UNION ONSCHEMA A1, A2;

编辑 UNION 的 PigLatin 文档链接

关于hadoop - 在 Pig 中合并两个数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14277926/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com