gpt4 book ai didi

hadoop - 在 PIg 中查找重复项

转载 作者:可可西里 更新时间:2023-11-01 16:23:01 25 4
gpt4 key购买 nike

如果我有一个包含id 的重复行 的表,

我可以通过以下查询使用 Hive 找到它

create table dupe as select * from table1 group by id having count(*) > 1;

我们可以使用 Pig 执行相同的功能吗?

如果是,有人可以帮我吗?

最佳答案

以下代码可能对您有所帮助:

r1 = load ...;
r2 = group r1 by id;
r3 = foreach r2 generate COUNT(r1) as c, r1;
r4 = filter r3 by c > 1;
r5 = foreach r4 generate FLATTEN(r1);
dump r5;

但是,订单没有保留。

关于hadoop - 在 PIg 中查找重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19535276/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com