gpt4 book ai didi

hadoop - PIG:在一组特定的列中安排多个记录

转载 作者:行者123 更新时间:2023-12-02 20:28:24 24 4
gpt4 key购买 nike

我有一个数据如下的情况:

Customer ID | Customer Name | Customer Post Code |Relation
C1 | John | E6 1NQ | R1
C2 | Peter | WC2 8AD | R1
C3 | Emilia | PC81 7RE | R1
C4 | Jessica | NE24 5RE | R1

我必须使用PIG处理上述数据,并准备提取物,如下所示:
Relation | Customer ID | Customer Name | Customer Post Code | Customer ID | Customer Name | Customer Post Code
R1 | C1 | John | E6 1NQ | C2 | Peter | WC2 8AD
R1 | C3 | Emilia | PC81 7RE | C4 | Jessica | NE24 5RE

我已经在R1的输入表上尝试了group by,然后尝试使用FOREACH创建列,但这并没有帮助我。

最佳答案

我首先通过按RELATION对记录进行分组来解决此问题,然后使用枚举对分组的记录进行排名。
此后,我创建了两个关系,第一个关系与具有奇数编号记录的记录,第二个关系与具有偶数编号记录的记录。
在此之后,我对两个关系进行了FULL OUTER JOIN BY RELATION和RANGE,然后生成了所需的输出

关于hadoop - PIG:在一组特定的列中安排多个记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54655536/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com