- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我开始涉足PigLatin,我有一个问题...
现在,我正在使用经典的单词计数示例,在该示例中,我处理了几本电子书,然后获得了单词列表以及每个单词出现的次数。
使用该数据作为 pig 的输入数据,然后按照每个单词出现的次数对其进行排序,然后得到5个最常见的单词。到目前为止,到目前为止很好,但我的问题是,现在我想获得5个最常用的单词,但是出现的次数不同。让我解释一下:
将此输出想象成单词计数作业:
(hey, 1)
(hello, 10)
(my, 2)
(cat, 1)
(eat, 4)
(mom, 10)
(house, 10)
data = load 'file' as (word, freq);
srtd = order data by freq;
lmtd = limit srtd 3;
dump lmtd;
(hello, 10)
(mom, 10)
(house, 10)
(hello, 10)
(eat, 4)
(my, 2)
最佳答案
您可以编写一个UDF来执行此操作,这可能会加快MR的速度,但是您可以尝试其中的一种。
数据=加载'文件'为(字,频率);
计数= GROUP数据(按频率);
countsLimited = FOREACH计数{
字= TOP(1,2,数据);
生成FLATTEN(word);
}
要么
数据=加载'文件'为(字,频率);
计数= GROUP数据(按频率);
countsLimited = FOREACH计数{
字= LIMIT数据1;
生成单词;
}
关于hadoop - 按键过滤记录-PigLatin,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9424802/
我开始涉足PigLatin,我有一个问题... 现在,我正在使用经典的单词计数示例,在该示例中,我处理了几本电子书,然后获得了单词列表以及每个单词出现的次数。 使用该数据作为 pig 的输入数据,然后
#include using namespace std; char firstLetter; int pigLatin(); string word; int wordFinder(); int
我是第一次使用一些 PigLatin 代码,希望能够通过首先将键值生成为字符数组,然后使用该键来访问 map 中的值。例如,categoryIds 是我的 map , catIds = foreach
我有一个文件,每个文件有 250k 行。我正在尝试加载它们: apache_log = LOAD 'apache_log/httpd-www02-access.log.2014-03-17-16*'
我有一个Pig程序,试图计算两个袋子之间的最小中心。为了使它起作用,我发现我需要将袋子打包成单个数据集。整个操作需要很长时间。我想从UDF内的磁盘中打开一个袋子,或者能够将另一个关系传递到UDF中而无
除了大写部分之外,我的程序正在运行:以下是将英语单词 englishWord 翻译为 Pig 拉丁语单词 pigLatinWord 的方法:A。如果英语单词中没有元音,那么pigLatinWord就是
刚刚将这个 Pig Latin 问题作为“家庭作业”。我得到的条件是: 对于以辅音开头的单词,初始元音之前的所有字母都放在单词序列的末尾。然后,添加ay。 对于以元音开头的单词,将初始元音与第一个辅音
我在打印出最终结果时遇到了问题,因为每个单词都在自己的行上。输出的格式应与输入的格式相同。这是我用来读取数据并打印它的代码: Scanner sc2 = null; try
我正在使用 PigLatin。我想从包中删除重复项,并希望保留特定键的最后一个元素。 Input: User1 7 LA User1 8 NYC User1 9 NYC User2 3 NYC
我有一个文本文件,它的第一行包含标题。现在我想对数据做一些操作,但是在使用 PigStorage 加载文件时它也需要 HEADER。我只想跳过标题。是否可以这样做(直接或通过 UDF)? 这是我用来加
我正在试验Pig UDF。我可以获得像大写字母这样的简单UDF为我工作。所以我试图编写自己的UDF。我想处理包含3个整数的输入文件的每一行。如果3个整数满足直角三角形的边的条件,则返回斜边,否则返回n
我在为我的计算机科学课编写的这个程序上遇到了很大的困难。我浏览并查看了学生在这里和其他网站上发布的其他程序,但我一直无法理解我做错了什么。我已经查看了 Java oracle 文档,它只是不适合我。
VOWELS = ('a', 'e', 'i', 'o', 'u') def pigLatin(word): first_letter = word[0] if first_lette
我正在按照其在线手稿尝试 Pig 演示代码。 首先,我创建了一个名为 myfile.txt 的测试文件。它包含两行中的六个整数: 4 5 3 1 2 3 使用hadoop fs -copyFromLo
我有一个具有相同格式的 csv 文件的 hdfs 文件列表。我需要能够 LOAD 它们与 pig 一起。例如: /path/to/files/2013/01-01/qwe123.csv /path/t
目标给定一个字符串,将字符串翻译为 PigLatin(如果字符串以元音开头,则将“way”附加到字符串末尾 - 否则查找第一个元音并取出所有前面的字母并将其放在 str 的末尾,添加“ay” )。 代
我有一只像这样的 pig 描述: DESCRIBE B; B: {group: chararray, A: {name: chararray,age: int,gpa: float}} 我想计算 ∑B
基本上,我正在尝试用 PHP 编写一个非常基本的程序,它只接受用户输入并使用 PHP 将其转换为 Piglatin,而不使用正则表达式。这是我的代码到目前为止的样子,很好: 除了它没有考虑特殊情况,
我读入了一个 csv 文件,其中包含带有数字的字段:“3”。我可以使用 PigLatin 将此字段从“3”转换为 3 吗?我需要它来使用 SUM() - 函数。 感谢您的帮助! 最佳答案 用 REPL
我在为我正在使用的 piglatin 脚本创建 UDF 时遇到问题。我的问题是,当我使用 pig script.pig 运行脚本时我收到以下错误: [main] ERROR org.apache.pi
我是一名优秀的程序员,十分优秀!