gpt4 book ai didi

hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT

转载 作者:可可西里 更新时间:2023-11-01 16:24:49 24 4
gpt4 key购买 nike

我刚刚开始学习 PIG,需要一些帮助解决以下问题。提前致谢!
例如:我有这样的输入:

职业类别名称

Actress       Acting     Marion Cotillard
Actor Acting Liam Nelson
Tennis Plyr Athletics Roger Federer
Football Plyr Athletics Neymar
Actor Acting Tom Hanks
Actress Acting Elizabeth Banks
US Senator Politics Elizabeth Warren
Football Plyr Athletics Mesut Ozil

我想知道单个类别中有多少种类型。例如:- 表演有两种类型,一种是女 Actor ,另一种是 Actor 。因此,结果将为 2。面临的问题:无法使用“职业”列区分“按类别分组”的输出。 :(

最佳答案

试试这个:

x= load '<data>' using PigStorage('\t') as (occupation:chararray,category:chararray,name:chararray);

x_grouped= group x by category;

x_grouped_distinct= foreach x_grouped { cat= distinct $1.occupation; generate $0, cat, COUNT(cat);};

dump x_grouped_distinct;

关于hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40364282/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com