gpt4 book ai didi

hadoop - 根据 pig 的字段比较元组

转载 作者:可可西里 更新时间:2023-11-01 14:52:29 25 4
gpt4 key购买 nike

(ABC,****,tool1,12)
(ABC,****,tool1,10)
(ABC,****,tool1,13)
(ABC,****,tool2,101)
(ABC,****,tool3,11)

以上是输入数据

以下是我在 pig 中的数据集。

Schema is : Username,ip,tool,duration

我想添加相同工具的持续时间

输出

(ABC,****,tool1,35)
(ABC,****,tool2,101)
(ABC,****,tool3,11

最佳答案

对持续时间使用 GROUP BY 和 SUM。

A = LOAD 'data.csv' USING PigStorage(',') AS (Username:chararray,ip:chararray,tool:chararray,duration:int);
B = GROUP A BY (Username,ip,tool);
C = FOREACH B GENERATE FLATTEN(group) AS (Username,ip,tool),SUM(A.duration);
DUMP C;

关于hadoop - 根据 pig 的字段比较元组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38831861/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com