gpt4 book ai didi

hadoop - PIG 从一个 Bag 中选择另一个 Bag 的数据

转载 作者:可可西里 更新时间:2023-11-01 16:18:26 28 4
gpt4 key购买 nike

我是 HADOOP 和 PIG 的新手。

我有两个包:

DUMP A:
(1)
(2)
(4)

DUMP B:
(1,John,USA)
(2,Richard,UK)
(3,Ian,Ireland)
(4,Simon,Canada)

Bag B 列出了每个人。 Bag A 里有我感兴趣的东西。我相信有一种简单的方法可以得到我感兴趣的人:

(1,John,USA)
(2,Richard,UK)
(4,Simon,Canada)

谁能把我从痛苦中解救出来?

提前谢谢你。

最佳答案

您应该能够通过类似于以下的命令加入并显示这两个集合:

JOINSET = join A by $0, B by $0;
DUMP JOINSET;

为了使这一点更容易理解,我会在您最初加载数据集时将名称与您的“列”相关联。您还可以通过 foreach/generate 命令进行过滤。所以像

INTEREST = foreach A generate $0 as interestID;
RECORDS = foreach B generate $0 as recordID, $1 as name, $2 as location;
JOINSET = join INTEREST by interestID, RECORDS by recordID;

将允许您通过“列名”而不是列索引进行连接。

关于hadoop - PIG 从一个 Bag 中选择另一个 Bag 的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14716445/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com