gpt4 book ai didi

hadoop - Pig:访问内部元组的字段进行过滤

转载 作者:行者123 更新时间:2023-12-02 19:41:41 24 4
gpt4 key购买 nike

我有这样的a custom Pig loader:

A = LOAD 'myfile' USING myudf_loader()
A包含:
((key1, val1), (key2, val2), (key3, val3), ...)

也就是说 A具有一个外部元组,其中包含存储在内部元组中的键值对。

我不使用 map ,因为 map 需要 key values within a relation must be unique。我拥有的键不一定必须是唯一的。

键为 chararrays,而值可以为 chararraysintsfloats

我想访问 A的内部元组,以及这些元组中的(键,值)对。

例如,我想 FILTER A的键,以便剩下的唯一字段是 key = "city"value = "New York City"

输入示例:
DUMP A;
(("city", "New York City"), ("city", "Boston"),
("city", "Washington, D.C."), ("non-city-key", "non-city-value"),
("city", "New York City"), ("non-city-key", "non-city-value"))

过滤的示例输出,存储在 B中:
DUMP B;
("city", "New York City")
("city", "New York City")

最佳答案

我没有完整的 pig 拉丁文字。

但是您可以使用以下思路实现

grouped_records = GROUP records By Key;

filtered_records = FILTER grouped_records By group='CITY'

Dump filtered_records

干杯
唠叨

关于hadoop - Pig:访问内部元组的字段进行过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24337117/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com