hadoop - 按键过滤记录-PigLatin-6ren

hadoop - 按键过滤记录-PigLatin

转载作者：行者123 更新时间：2023-12-02 20:13:48

26

4

我开始涉足PigLatin，我有一个问题...

现在，我正在使用经典的单词计数示例，在该示例中，我处理了几本电子书，然后获得了单词列表以及每个单词出现的次数。

使用该数据作为 pig 的输入数据，然后按照每个单词出现的次数对其进行排序，然后得到5个最常见的单词。到目前为止，到目前为止很好，但我的问题是，现在我想获得5个最常用的单词，但是出现的次数不同。让我解释一下:

将此输出想象成单词计数作业:

(hey, 1)
(hello, 10)
(my, 2)
(cat, 1)
(eat, 4)
(mom, 10)
(house, 10)

然后，在Grunt shell上执行以下操作:

data = load 'file' as (word, freq);
srtd = order data by freq;
lmtd = limit srtd 3;
dump lmtd;

我得到的输出是:

(hello, 10)
(mom, 10)
(house, 10)

但是，如果我想得到这个怎么办:

(hello, 10)
(eat, 4)
(my, 2)

如何过滤重复的频率值？

谢谢!

最佳答案

您可以编写一个UDF来执行此操作，这可能会加快MR的速度，但是您可以尝试其中的一种。

数据=加载'文件'为(字，频率);
计数= GROUP数据(按频率)；
countsLimited = FOREACH计数{
字= TOP(1，2，数据);
生成FLATTEN(word);
}

要么

数据=加载'文件'为(字，频率);
计数= GROUP数据(按频率)；
countsLimited = FOREACH计数{
字= LIMIT数据1；
生成单词；
}

关于hadoop - 按键过滤记录-PigLatin，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9424802/

26

4

0

文章推荐： hadoop - 如何为 LZMA2 编写 Hadoop 压缩/解压缩编解码器？

文章推荐： hadoop - 根据“Pig Latin”投影过程中的条件生成记录

文章推荐： docker - 来自服务器的领事空回复

hadoop - 按键过滤记录-PigLatin
我开始涉足PigLatin，我有一个问题... 现在，我正在使用经典的单词计数示例，在该示例中，我处理了几本电子书，然后获得了单词列表以及每个单词出现的次数。使用该数据作为 pig 的输入数据，然后
c++ - Piglatin 输出仍无法正常工作
#include using namespace std; char firstLetter; int pigLatin(); string word; int wordFinder(); int
map - PigLatin 映射键值
我是第一次使用一些 PigLatin 代码，希望能够通过首先将键值生成为字符数组，然后使用该键来访问 map 中的值。例如，categoryIds 是我的 map ， catIds = foreach
regex - 如何在输入文件中找到导致错误的行 - PigLatin？
我有一个文件，每个文件有 250k 行。我正在尝试加载它们: apache_log = LOAD 'apache_log/httpd-www02-access.log.2014-03-17-16*'
hadoop - 如何从Yahoo PigLatin UDF内将文件加载到DataBag中？
我有一个Pig程序，试图计算两个袋子之间的最小中心。为了使它起作用，我发现我需要将袋子打包成单个数据集。整个操作需要很长时间。我想从UDF内的磁盘中打开一个袋子，或者能够将另一个关系传递到UDF中而无
java - PigLatin 程序帮助...大写？
除了大写部分之外，我的程序正在运行:以下是将英语单词 englishWord 翻译为 Pig 拉丁语单词 pigLatinWord 的方法:A。如果英语单词中没有元音，那么pigLatinWord就是
c# - 英语到 PigLatin c#
刚刚将这个 Pig Latin 问题作为“家庭作业”。我得到的条件是: 对于以辅音开头的单词，初始元音之前的所有字母都放在单词序列的末尾。然后，添加ay。对于以元音开头的单词，将初始元音与第一个辅音
java - 从文本文件中读取数据，将每个单词转换为 PigLatin
我在打印出最终结果时遇到了问题，因为每个单词都在自己的行上。输出的格式应与输入的格式相同。这是我用来读取数据并打印它的代码: Scanner sc2 = null; try
hadoop - 使用 PigLatin 删除重复项并保留最后一个元素
我正在使用 PigLatin。我想从包中删除重复项，并希望保留特定键的最后一个元素。 Input: User1 7 LA User1 8 NYC User1 9 NYC User2 3 NYC
hadoop - 使用 Piglatin 加载文本文件时跳过标题
我有一个文本文件，它的第一行包含标题。现在我想对数据做一些操作，但是在使用 PigStorage 加载文件时它也需要 HEADER。我只想跳过标题。是否可以这样做(直接或通过 UDF)？这是我用来加
hadoop - PigLatin-本地模式-错误1066:无法打开别名B的迭代器
我正在试验Pig UDF。我可以获得像大写字母这样的简单UDF为我工作。所以我试图编写自己的UDF。我想处理包含3个整数的输入文件的每一行。如果3个整数满足直角三角形的边的条件，则返回斜边，否则返回n
java - Piglatin，难以理解如何在字符串中移动 '.'
我在为我的计算机科学课编写的这个程序上遇到了很大的困难。我浏览并查看了学生在这里和其他网站上发布的其他程序，但我一直无法理解我做错了什么。我已经查看了 Java oracle 文档，它只是不适合我。
python - PigLatin 翻译器，用于以多个辅音开头的单词[Python]
VOWELS = ('a', 'e', 'i', 'o', 'u') def pigLatin(word): first_letter = word[0] if first_lette
hadoop - PigLatin 无法从 hdfs 读取文件
我正在按照其在线手稿尝试 Pig 演示代码。首先，我创建了一个名为 myfile.txt 的测试文件。它包含两行中的六个整数: 4 5 3 1 2 3 使用hadoop fs -copyFromLo
hadoop - 使用 PigLatin (Hadoop) 加载多个文件
我有一个具有相同格式的 csv 文件的 hdfs 文件列表。我需要能够 LOAD 它们与 pig 一起。例如: /path/to/files/2013/01-01/qwe123.csv /path/t
javascript - PigLatin substr() 和 slice() 的问题
目标给定一个字符串，将字符串翻译为 PigLatin(如果字符串以元音开头，则将“way”附加到字符串末尾 - 否则查找第一个元音并取出所有前面的字母并将其放在 str 的末尾，添加“ay” )。代
hadoop - 如何在 PigLatin 的 SUM 中计算乘法
我有一只像这样的 pig 描述: DESCRIBE B; B: {group: chararray, A: {name: chararray,age: int,gpa: float}} 我想计算 ∑B
php - 没有正则表达式的 PHP 中的 Piglatin 程序？
基本上，我正在尝试用 PHP 编写一个非常基本的程序，它只接受用户输入并使用 PHP 将其转换为 Piglatin，而不使用正则表达式。这是我的代码到目前为止的样子，很好: 除了它没有考虑特殊情况，
csv - 使用 PigLatin 将 "3"转换为 3
我读入了一个 csv 文件，其中包含带有数字的字段:“3”。我可以使用 PigLatin 将此字段从“3”转换为 3 吗？我需要它来使用 SUM() - 函数。感谢您的帮助! 最佳答案用 REPL
用于 piglatin 脚本的 Python UDF 找不到 re 模块
我在为我正在使用的 piglatin 脚本创建 UDF 时遇到问题。我的问题是，当我使用 pig script.pig 运行脚本时我收到以下错误: [main] ERROR org.apache.pi

首页

博学

6Ren·AI

商城

hadoop - 按键过滤记录-PigLatin