gpt4 book ai didi

hadoop - Apache Pig组/展平/加入

转载 作者:行者123 更新时间:2023-12-02 21:31:30 24 4
gpt4 key购买 nike

我有2个数据集。

集A具有多个事件,每个事件都发生在一个日期上,每个日期有多个事件。例如:

10/23/2015, event1
10/23/2015, event2
9/17/2014, event3

集合B具有每个日期的天气预报。每个日期只有一个观测值。例如:
10/23/2015, obs1
10/22/2015, obs2
9/17/2014, obs3

我想将每个日期的天气观察附加到每个事件上,例如:
10/23/2015, event1, obs1
10/23/2015, event2, obs1
9/17/2014, event3, obs3

我认为可以通过按日期对集合A进行分组,按日期对集合B进行内部联接,然后将结果展平来实现。

有人能让我知道这是否是最好的方法,并告诉我要使用的代码吗?谢谢

最佳答案

无需分组和展平。只是一个联接,然后您必须删除重复的date列。

a = LOAD 'datasetA.txt' USING PigStorage(',') as (date:chararray, evt:chararray);
b = LOAD 'datasetB.txt' USING PigStorage(',') as (date:chararray, obs:chararray);
c_join = a JOIN b ON a.date == b.date;
c = FOREACH c_join GENERATE a::date, a::evt, b::obs;

输出量
dump c;
(9/17/2014, event3, obs3)
(10/23/2015, event2, obs1)
(10/23/2015, event1, obs1)

关于hadoop - Apache Pig组/展平/加入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34043862/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com