gpt4 book ai didi

hadoop - 使用 pig 脚本计算字段的不同值的计数

转载 作者:可可西里 更新时间:2023-11-01 14:14:34 27 4
gpt4 key购买 nike

对于表格的文件

A B user1
C D user2
A D user3
A D user1

我想计算字段 3 的不同值的计数,即 count(distinct(user1, user2,user2,user1)) = 3

我正在使用以下 pig 脚本执行此操作

A =  load 'myTestData' using PigStorage('\t') as (a1,a2,a3); 

user_list = foreach A GENERATE $2;
unique_users = DISTINCT user_list;
unique_users_group = GROUP unique_users ALL;
uu_count = FOREACH unique_users_group GENERATE COUNT(unique_users);
store uu_count into 'output';

有没有更好的方法来计算字段的不同值?

最佳答案

更新的方法:

user_data = LOAD 'myTestData' USING PigStorage('\t') AS (a1,a2,a3);
users = FOREACH user_data GENERATE a3;
uniq_users = DISTINCT users;
grouped_users = GROUP uniq_users ALL;
uniq_user_count = FOREACH grouped_users GENERATE COUNT(uniq_users);
DUMP uniq_user_count;

这将在您的日志中留下值 (3)

关于hadoop - 使用 pig 脚本计算字段的不同值的计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12894629/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com