java - 映射器的意外输出。它在输出前添加一个数字-6ren

java - 映射器的意外输出。它在输出前添加一个数字

转载作者：可可西里更新时间：2023-11-01 16:32:07

28

4

因此，我将来自另一个 MapReduce 作业的输入提供给我的 Mapper。在这里，我对我的输入进行了一些分区，以便 reducer 可迭代对象不会超出内存(这只是一个测试程序)。所以在映射器中，我只是试图删除输入中的“/”，然后在缩减器中添加总和，但是映射器开始给出一个不寻常的输出，它在输出前添加了一个整数，而其余输出是也不尽如人意。同样在此之前，我收到了类似预期的错误 'org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable' 并添加了这个 ' job1.setMapOutputKeyClass( LongWritable.class); job1.setMapOutputValueClass(Text.class);' 避免了错误。

如果我在某处严重错误，请原谅。

package test;
import java.io.IOException;
import java.util.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
public class MapCom2
{
    public static class Map1 extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable();
    private Text word = new Text();
    public static int cnt=1;
    public void map1(LongWritable key, Text value, Context context) throws IOException, InterruptedException 
        {
        String line = value.toString();
        Configuration conf=context.getConfiguration();
        String []tokens=line.split("\t");
        int l=0;
        while(l<tokens.length)
            {
            if(tokens[l].contains("/"))
                break;
            l=l+1;
            }
        int indno=tokens[l].lastIndexOf("/");
        String w=tokens[l].substring(0,indno);
        int tcnt=Integer.parseInt(tokens[l+1]);
        word.set(w);
        one.set(tcnt);
        context.write(word,one);
        }
    }

    public static int main(String[] args) throws Exception {
    Configuration conf1= new Configuration();
    Job job1 = new Job(conf1,"mapcom2");
    job1.setJarByClass(test.MapCom2.class);
    job1.setJobName("mapcom2");
    job1.setMapOutputKeyClass(LongWritable.class);
    job1.setMapOutputValueClass(Text.class);
    job1.setOutputKeyClass(Text.class);
    job1.setOutputValueClass(IntWritable.class);
    job1.setMapperClass(Map1.class);
    //job1.setReducerClass(Reduce1.class);
    String op=args[0];
    if(!(op.charAt(op.length()-1)+"").equals("/"))
        op=op+"/"+"part-r-00000";
    else
        op=op+"part-r-00000";
    job1.setInputFormatClass(TextInputFormat.class);
    job1.setOutputFormatClass(TextOutputFormat.class);
    FileInputFormat.addInputPath(job1, new Path(op));
    FileOutputFormat.setOutputPath(job1, new Path(args[1]));
    int ret=job1.waitForCompletion(true)?0:1;
    return ret;
    }
}

输入是这样的。

)hadoop/0   1
-C/0    1
-classpath/0    1
-cvf/0  1
-d/0    1
-mkdir/0    2
-put/0  2
./0 1
/home/hadoop/hadoop/0   1
/home/hadoop/hadoopAssign/wordcount_classes/0   1
/wordcount/input/0  3
/wordcount/output/0 1
1)/0    1
2)/0    1
3)/0    1
4)/0    1
5/0 1
Assign/hadoop-core-1.1.2.jar/0  1
WordCount.java/0    1
and/0   1
copy/0  1
file01/0    2
file02/0    2
files/0 1
fs/0    3
fs/1    2
hadoop/0    3
hadoop/1    2
jar/0   2
javac/0 1
make/0  1
mkdir/0 1
org.myorg.WordCount/0   1
them/0  1
to/0    2
two/0   1
wordcount.jar/0 2
wordcount/0 1
wordcount/input/0   1
wordcount_classes//0    1
wordcount_classes/0 1

而输出是这样的

0   )hadoop/0   1
12  -C/0    1
19  -classpath/0    1
34  -cvf/0  1
43  -d/0    1
50  -mkdir/0    2
61  -put/0  2
70  ./0 1
76  /home/hadoop/hadoop/0   1
100 /home/hadoop/hadoopAssign/wordcount_classes/0   1
148 /wordcount/input/0  3
169 /wordcount/output/0 1
191 1)/0    1
198 2)/0    1
205 3)/0    1
212 4)/0    1
219 5/0 1
225 Assign/hadoop-core-1.1.2.jar/0  1
258 WordCount.java/0    1
277 and/0   1
285 copy/0  1
294 file01/0    2
305 file02/0    2
316 files/0 1
326 fs/0    3
333 fs/1    2
340 hadoop/0    3
351 hadoop/1    2
362 jar/0   2
370 javac/0 1
380 make/0  1
389 mkdir/0 1
399 org.myorg.WordCount/0   1
423 them/0  1
432 to/0    2
439 two/0   1
447 wordcount.jar/0 2
465 wordcount/0 1
479 wordcount/input/0   1
499 wordcount_classes//0    1
522 wordcount_classes/0 1

前几行的预期输出是这样的

)hadoop 1
-C  1
-classpath  1
-cvf    1

这正是我想要做的，但问题出在上面的程序中。我的最终目标是限制 Reducer 中可迭代值的大小。对于单词 hadoop 和 fs，我们将输出 5 和 5。在这里，我通过以某种方式对映射器进行分区将 reducer 值限制为 3，但我卡在了我的映射器中。所以/0、/1、/2 只是表示例如单词“hadoop”已经出现了 3 次，并且所以我们转到 hadoop/1 。这是在前面的 map reduce 程序中完成的，稍后我将介绍线性链。感谢任何帮助。

最佳答案

在 Hadoop 框架中，映射阶段被分配给一个映射器作业。这一个与您需要实现的特定接口(interface)相关联:Mapper。

此接口(interface)有一个名为 map 的独特方法，您需要实现该方法才能正确实现映射阶段。

您的代码中有错字 (map1)。更正它，用户已经解决了它的问题。

关于java - 映射器的意外输出。它在输出前添加一个数字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25889053/

28

4

0

文章推荐： hadoop - 处理 pig 中的刺分隔符

文章推荐： python - 第一个 HTTPS 请求比其他请求花费更多时间

文章推荐： javascript - HTTP 预检 (OPTIONS) 请求仅在 IE 中失败

前、后端通用的可视化逻辑编排
前一段时间写过一篇文章《实战，一个高扩展、可视化低代码前端，详实、完整》，得到了很多朋友的关注。其中的逻辑编排部分过于简略，不少朋友希望能写一些关于逻辑编排的内容，本文就详细讲述一下逻辑
java - 前/后增量运算符和数组
我正在尝试以下 Java 片段: int[] testArray={10,20,30,40}; int i= 0; testArray[i++]= testArray[i++]+1; System.o
c++ - 前/后函数调用实现
我想知道我是否可以通过某种方式在 C++ 中进行前/后函数调用。我有一个包含很多函数的包装器类，在每次调用包装器函数后，我应该调用另一个始终相同的函数。所以我不想像这样对每个函数调用 postFun
c++ - 缺少语法错误；前 *
我有一个像这样的头文件: #pragma once #include "gamestate.h" #include "ExitListener.h" class InitialGameState :
c++ - 前/后增量的左值和右值
学习左值和右值。定义是任何可以是“地址”的东西都是左值，否则就是右值。我检查了运算符的优先级，前缀和后缀增量都比“地址”运算符具有更高的优先级。对于下面的两个例子，谁能解释一下为什么第一个“&++
c++ - 前/后插入器就位
在我的学习过程中，我遇到了前后迭代器，我想知道是否有办法让它们就地创建容器元素。从文档来看，容器似乎需要实现 push_back 函数才能与 back_iterator 一起使用。但是有没有一种方法可
Java:前、后缀运算符优先级
我有两个关于 Java 中运算符优先级的类似问题。第一个: int X = 10; System.out.println(X++ * ++X * X++); //it prints 1440 根据
c++ - 前/后增量说明
请放轻松，不要对我开枪，因为我还是新手。当我运行这段代码时，我完全糊涂了，终生无法弄清楚为什么: int y = 9; cout << "++y = " << ++y << "\n--y = " <
c - 前/后增量指针
两种表达方式有区别吗: (*x)++ 和 ++(*x) 我可以看到这两个语句都替换了 *x 中 (*x+1) 的内容。但是它们之间有什么区别吗？最佳答案 (*x)++ 计算为*x的值；作为副作用，*
excel - 前 n 个值的动态可视化
我有一个如下所示的数据集: Date CONSUMER DISCR CONSUMER STAPLES ENERGY FINANCIALS HEALTH CARE
javascript - 如何验证输入的*前*两个字符是字母？
我希望检查名称字段中输入的前两个字符是否为字母 - 除此之外没有什么区别(空格、'、- 等都是公平的游戏)。这是我到目前为止所拥有的，但它不起作用。想法？谢谢! if (document.form01
javascript - 前 3 次执行中的脚本速度较慢
我制作了一个简单的脚本，为像素和所有附近的像素着色为相同的颜色 Click foto
php - 前 30 天通过一个循环
我需要编写一个循环，以下列格式输出从昨天算起的最近 30 天: 2014-02-02 2014-02-03 2014-02-04 ... 2014-03-04 我想我需要像这样使用循环: for ($
java - 前/后递增/递减和运算符顺序混淆
我正在做一些练习，但我对这个感到困惑: public static int f (int x, int y) { int b=y--; while (b>0) { if (x%2!=0
regex - 前 4 个字符的正则表达式
我需要一个 4 个字符的正则表达式。前 3 个字符必须是数字，最后 1 个字符必须是字母或数字。我形成了这个，但它不起作用 ^([0-9]{3}+(([a-zA-Z]*)|([0-9]*)))?$
php - 前 30 天通过一个循环
我需要编写一个循环，以下列格式输出从昨天算起的最近 30 天: 2014-02-02 2014-02-03 2014-02-04 ... 2014-03-04 我想我需要像这样使用循环: for ($
java - 前 1000 个质数之和
我有下面的程序，我试图找到前 1000 个素数的总和。在代码中，解决方案1和2有什么区别？为什么我不应该将 count 变量放在 if 条件之外？如果我把变量放在 if 之外，我显然没有得到我需要的答
javascript - 前 n 个匹配项的正则表达式
这个问题在这里已经有了答案: Replace First N Occurrences in the String (7 个答案) 关闭 4 年前。我有一个如下的字符串 const str = '_
c - 前 6 次迭代后出现段错误
我正在尝试测量以纳秒为单位的平均访问延迟，但在第一次迭代后我收到“段错误(核心转储)”。我错过了什么吗？我是否滥用了指针。这是导致错误的函数: #include #include #include
MySQL 前 6 个月累计总和
我有一个 SQL 问题 (MySQL)。我如何从下表创建一个新表(表名称:“well_master_prod_inj”)。我需要按井名和日期聚合数据。我希望每个井名只有一行数据以及显示以下数据的列:

首页

博学

6Ren·AI

商城

java - 映射器的意外输出。它在输出前添加一个数字