gpt4 book ai didi

java - 使用 hadoop 自定义字数统计

转载 作者:可可西里 更新时间:2023-11-01 14:50:51 26 4
gpt4 key购买 nike

我是 hadoop 的初学者。我了解 WordCount 程序。现在我有一个问题。我不想要所有单词的输出..

- Words_I_Want.txt -<br/>
hello<br/>
echo<br/>
raj

- Text.txt -<br/>
hello eveyone. I want hello and echo count


输出应该是
hello 2<br/>
echo 1<br/>
raj 0


现在这是一个例子,我的实际数据非常很大。

最佳答案

WordCount example , Mapper 从输入值和数字 1 输出每个标记化的词:

while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
output.collect(word, one);
}

如果您只想计算某些单词的数量,那么您不想只从您的 Mapper 输出与您的列表匹配的单词吗?

while (tokenizer.hasMoreTokens()) {
String token = tokenizer.nextToken();
if (wordsThatYouCareAbout.contains(token)) {
word.set(token);
output.collect(word, one);
}
}

关于java - 使用 hadoop 自定义字数统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3405803/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com