gpt4 book ai didi

hadoop - 我在PIG中执行JOIN操作时遇到错误?

转载 作者:行者123 更新时间:2023-12-02 20:59:42 25 4
gpt4 key购买 nike

我是编程界的新手,正在学习Hadoop。在编写Pig查询时,出现意外输出。我试过的查询是

D = LOAD 'data1' AS (a:int,b:int);
S = LOAD 'data2' AS (c:int,d:int);
J = JOIN D by a, S by c;
DUMP J;

我要插入输出和数据集。我的要求只是获取数据1的第一列和数据2(combine)的第一列,但我得到了以下内容

我无法插入想要的方式。

o / p:
(1,2,1,3)
(4,3,4,9)
(4,3,4,6)
(4,2,4,9)
(4,2,4,6)
(8,3,8,6)
(8,3,8,9)

数据集:

数据1:
1    2
4 2
8 3
4 3
7 2
8 4

数据2:
2    4
8 9
1 3
2 7
2 9
4 6
4 9

最佳答案

My requirement was only to get first column of data 1 and first column of data 2



然后,您需要另一个别名来提取联接的数据。
J = JOIN D by a, S by c;
X = FOREACH J GENERATE $0, $2;
DUMP X;

但是,例如,这将导致相同的数字,所以我不确定那不是您想要的
1   1
4 4
4 4

因此,您可能需要考虑使用外部联接,以便不仅获得匹配值
J = JOIN D by a LEFT OUTER, S by c;

我不记得连接右侧的结果是什么,但可能为NULL

关于hadoop - 我在PIG中执行JOIN操作时遇到错误?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43561567/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com