gpt4 book ai didi

hadoop - 如何使用 Pig 将不同的值存储在同一键的列表中

转载 作者:可可西里 更新时间:2023-11-01 16:39:34 25 4
gpt4 key购买 nike

我有一个用例

col1|col2
a101|10
a101|20
a101|10
a101|30
a201|40
a201|50

预期输出:

a101|列表<10,20,30>

a201|列表<40,50>

下面是查询,但我没有得到预期的输出。我想在列表中存储 col2 个不同的值。

input1= load 'list1.csv' using PigStorage('|') as (col1: chararray, col2: int);
input2 = DISTINCT (FOREACH input1 generate col1,col2);
input3 = GROUP input2 by col1;
dump input3;
(a101,{(a101,30),(a101,20),(a101,10)})
(a201,{(a201,50),(a201,40)})

最佳答案

试试这个:

input1= load 'input.txt' using PigStorage('|') as (col1: chararray, col2: int);
input2 = DISTINCT input1; --distinct not required but will remove duplicate rows
input3 = GROUP input2 by col1;
data = FOREACH input3 GENERATE FLATTEN(group) as col1, input2.col2 AS col2;
DUMP data;

生成的输出:

(a101,{(30),(20),(10)})
(a201,{(50),(40)})

关于hadoop - 如何使用 Pig 将不同的值存储在同一键的列表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44227375/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com