hadoop - 使用 pig latin 分组后如何找到相似的元组？-6ren

hadoop - 使用 pig latin 分组后如何找到相似的元组？

转载作者：可可西里更新时间：2023-11-01 16:33:42

26

4

我有一个具有以下结构的数据 -

1 约翰美国2 玛丽 CN3 史密斯美国4 约翰美国5 玛丽 CN

我需要在每个国家/地区找到重复的名称。结果应该是这样的{US : (1, John, US),(4,John, US)}{CN : (2, Mary, CN),(5, Mary, CN)}。有人可以帮我用 Pig 脚本来解决我的问题吗？

我能够加载数据并按国家/地区名称对其进行分组。

最佳答案

我假设您有以下格式的输入:

1 John US
2 Mary CN
3 Smith US
4 John US
5 Mary CN

在这种情况下，您可以提出以下建议:

A = load 'data.txt' using PigStorage(' ') 
      as (id:int, name:chararray, country:chararray);
B = foreach (group A by (country, name)) generate group.country, A, 
      COUNT(A) as count;
C = foreach (FILTER B by count > (long)1) generate country, A;

dump C;
(CN,{(2,Mary,CN),(5,Mary,CN)})
(US,{(1,John,US),(4,John,US)})

关于hadoop - 使用 pig latin 分组后如何找到相似的元组？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17197783/

26

4

0

文章推荐： c++ - 有关 Microsoft 多字符串格式的详细信息

文章推荐： multithreading - XPages HTTP 线程挂起

文章推荐： Mongodb_Hadoop MapReduce

python - 使用列表/元组/等。从键入与直接将类型引用为列表/元组/等
typing模块中使用List、Tuple等有什么区别: from typing import Tuple def f(points: Tuple): return map(do_stuff,
python - 迭代每个 N 元素，放入一个元素(元组)，然后每个 N 元素，放入另一个元素(元组)
如何遍历列表的每 5 个元素并将它们组成一个元组，然后将同一列表的第 6 个元素作为第二个元组 - 然后对接下来的 5 个元素和第 6 个元素执行相同的操作。我读过 operator.itemget
Scala groupby 元组
我有一个 Seq[((元组 A),(元组 B))] 有没有一种简单的方法来对元组 A 进行分组，以便我得到 Seq[(Tuple A, Seq[Tuple B])] 我试过 groupby(x =>
scala - 内存中相同值的列表/元组
如果我有以下内容 val A = List(1,2,3) val B = List(1,2,3) 这两个变量是否有相同的内存地址？最佳答案它们不会有相同的内存地址，可以使用 eq 方法确认，com
arrays - 元组/数组对列表
我实际上是在尝试创建一个配对列表，但事实证明这非常困难在有人提到 Hashtables 之前请注意，会有我不关心的重复项。例如，如果我这样做 $b = @{"dog" = "cat"} 我明白了
要通过删除空对象进行映射的 Terraform 元组？
我正在尝试为其他资源中的 for_each 循环创建局部变量，但无法按预期制作局部映射。以下是我试过的。 (地形 0.12) 预期映射到循环 temple_list = { "test2-role"
Haskell 列表理解顺序元素/元组
我目前正在学习 Haskell，在 FP 方面我绝对是初学者。现在我正在尝试使用列表推导式进行不同的操作。 listComprehension = [(a,b,c) | a <- xs, b <
要通过删除空对象进行映射的 Terraform 元组？
我正在尝试为其他资源中的 for_each 循环创建局部变量，但无法按预期制作局部映射。以下是我试过的。 (地形 0.12) 预期映射到循环 temple_list = { "test2-role"
Java 元组/对
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
python - “元组”对象不可调用
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
list - 过滤我自己类型的列表 - 元组？
如何通过元组中的第三项过滤此类型的列表: type Car = (String, [String], Int [String]) 我看到了 snd和 fst方法，但在这里我认为这行不通，我不确定如何在
无需创建多个类型参数的 Java 元组
有没有办法创建 Tuple 在 Java 中，无需创建多个类？例如，可以为每种不同类型的元组创建不同的类，每个类具有不同数量的 Type Parameters : public class Sing
c++ - 将类型转换扩展到可转换类型的对/元组
我必须处理一堆二维点类型:pair , pair , pair ，并且只要存在坐标转换，我就允许点之间的隐式转换。像这样: template inline operator pair ( pair t
来自并行文件的 Python 元组
这个问题在这里已经有了答案: How do I iterate through two lists in parallel? (8 个答案) How do I iterate over the tu
Python 序列(元组)
编写一个函数 square_odd_terms 接受一个元组作为参数并返回一个元组中奇数项的平方的元组。即使是条款也将保持不变。我的尝试是: def square_odd_termms(tpl):
Python - 元组 - 检索元组列表中的唯一元素
更新: 我选择了这个: set(item[1] for item in id) 谢谢你们，你们的想法对我有帮助。我正在处理一个元组列表: 以下面这行代码为例。我的 list 可以是任何长度。但是，我
python - 从两个不同大小的列表创建一个列表(元组？)
我一直在尝试执行此任务，在尝试时我不禁想到会有比我一直尝试的方式更好的编码方式。我有一行文字和一个关键字。我想在每个列表中的每个字符下创建一个新列表。关键字将重复自身直到列表末尾。如果有任何非字母字
python - “元组”不可调用错误
我现在这个问题已经被问过好几次了。但是，答案似乎并没有解决我的问题。我收到类型错误，“元组”对象不可调用。即使列表中的元组以正确的方式用逗号分隔，我也得到了这个: def aiMove(b):
swift - Swift 元组
嘿，所以我花了两个多小时试图解决这个问题，但我就是做不对。我猜我犯了一个非常简单的错误，所以如果有人能指出我正确的方向，我将非常感激，谢谢!顺便说一句，这是一门树屋类(class)。 “目前我们的问候
c++ - 元组 - 单独标题的原因
这不是一个严格的编程问题，但为什么是tuple在单独的 header 中定义，而不是添加到连同 pair ？它看起来更自然，不那么困惑等。最佳答案在具有细粒度的 header 和只有一个 hea

首页

博学

6Ren·AI

商城

hadoop - 使用 pig latin 分组后如何找到相似的元组？