gpt4 book ai didi

hadoop - pig 的GROUP和COUNT后减少

转载 作者:行者123 更新时间:2023-12-02 21:40:42 25 4
gpt4 key购买 nike

我有一个表,试图在其中查找标识符的出现次数

我先加载表格

a = LOAD 'table' USING org.apache.hive.hcatalog.pig.HCatLoader(); 

然后减少列
b = FOREACH a GENERATE col1, col2, col3, col4;

我将结果分组在col1上,因为它包含我正在查找的ID的计数
c = GROUP b BY col1;

然后计算每个分组下的元素数量
d = FOREACH c GENERATE COUNT(b), b.col1;

结果是
(1,{(111)})
(1,{(116)})
(2,{(118),(118)})
(2,{(122),(122)})
(2,{(125),(125)})
(1,{(134)})
(2,{(136),(136)})
(2,{(153),(153)})
(1,{(153)})

每行的第二个元素是ID,重复出现的次数。我如何消除这个袋子,而只剩下计数和ID元组?

最佳答案

d = FOREACH c生成计数(b),b.col1;

->

d = FOREACH c生成计数(b),组;

关于hadoop - pig 的GROUP和COUNT后减少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28999051/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com