gpt4 book ai didi

hadoop - 使用 pig latin 分组后如何找到相似的元组?

转载 作者:可可西里 更新时间:2023-11-01 16:33:42 26 4
gpt4 key购买 nike

我有一个具有以下结构的数据 -

1 约翰美国2 玛丽 CN3 史密斯 美国4 约翰美国5 玛丽 CN

我需要在每个国家/地区找到重复的名称。结果应该是这样的{US : (1, John, US),(4,John, US)}{CN : (2, Mary, CN),(5, Mary, CN)}。有人可以帮我用 Pig 脚本来解决我的问题吗?

我能够加载数据并按国家/地区名称对其进行分组。

最佳答案

我假设您有以下格式的输入:

1 John US
2 Mary CN
3 Smith US
4 John US
5 Mary CN

在这种情况下,您可以提出以下建议:

A = load 'data.txt' using PigStorage(' ') 
as (id:int, name:chararray, country:chararray);
B = foreach (group A by (country, name)) generate group.country, A,
COUNT(A) as count;
C = foreach (FILTER B by count > (long)1) generate country, A;

dump C;
(CN,{(2,Mary,CN),(5,Mary,CN)})
(US,{(1,John,US),(4,John,US)})

关于hadoop - 使用 pig latin 分组后如何找到相似的元组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17197783/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com