gpt4 book ai didi

hadoop - 使用 Apache Hadoop Pig 内部连接两个数据集

转载 作者:可可西里 更新时间:2023-11-01 14:25:35 26 4
gpt4 key购买 nike

我有两个数据集(1M 唯一字符串)和(1B 唯一字符串);我想知道有多少字符串在两个集合中是通用的,并且想知道使用 Apache Pig 获取数字的最有效方法是什么?

最佳答案

您可以先加入两个文件,如下所示:

A = LOAD '/joindata1.txt' AS (a1:int,a2:int,a3:int);
B = LOAD '/joindata2.txt' AS (b1:int,b2:int);
X = JOIN A BY a1, B BY b1;

然后你可以计算行数:

grouped_records = GROUP X ALL;
count_records = FOREACH grouped_records GENERATE COUNT(A.a1);

它对你的问题有帮助吗...

关于hadoop - 使用 Apache Hadoop Pig 内部连接两个数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32321318/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com