gpt4 book ai didi

java - hadoop mapreduce 中的重复项

转载 作者:可可西里 更新时间:2023-11-01 16:34:40 25 4
gpt4 key购买 nike

我从 hadoop 0.20.2 开始。我想从这里找到的代码开始解决基本的字数统计问题: http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.html

这就像它应该的那样工作。但是,当单词在多个文件中分开并且我想计算每个文件的单词数时,我将映射器更改为:

String fileName = ((org.apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName();

word.set(itr.nextToken()+"@"+fileName);

但后来我在我的 mapreduced 文件中得到了重复项,如下所示:word1@file1 1word2@file2 1word2@file2~ 1...

所以 word2@file2~ 1 不应该在那里...

有人知道我做错了什么吗?

谢谢

最佳答案

您确定没有将末尾带有波浪号的文件添加到 hadoop 作业的输入中吗?每次编辑文件时,一些编辑器(如 Gedit)都会生成它们。

关于java - hadoop mapreduce 中的重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8674544/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com