java - 排序的 Hadoop WordCount Java-6ren

java - 排序的 Hadoop WordCount Java

转载作者：可可西里更新时间：2023-11-01 16:55:54

我正在 Java 中运行 Hadoop 的 WordCount 程序，我的第一份工作(获取所有单词及其计数)工作正常。但是，当我做第二份工作时遇到一个问题，应该按出现次数对其进行排序。我已经阅读了这个问题 (Hadoop WordCount sorted by word occurrences) 以了解如何做第二份工作，但我没有遇到同样的问题。

我的代码:

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;


public class simpleWordExample {

public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            context.write(word, one);
        }
    }
    } 


    public class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {

            int sum = 0;
            for (IntWritable value:values) {
                sum += value.get();
            }
            context.write(key, new IntWritable(sum));

        }

    } 


class Map1 extends Mapper<LongWritable, Text, Text, IntWritable> {

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        StringTokenizer stringTokenizer = new StringTokenizer(line);
        while (stringTokenizer.hasMoreTokens()){
            int number = 999;
            String word = "empty";

            if (stringTokenizer.hasMoreTokens()) {
                String str0 = stringTokenizer.nextToken();
                word = str0.trim();
            }

            if (stringTokenizer.hasMoreElements()) {
                String str1 = stringTokenizer.nextToken();
                number = Integer.parseInt(str1.trim());
            }
            context.write(new Text(word), new IntWritable(number));
        }

    }

}

class Reduce1 extends Reducer<Text, IntWritable, Text, IntWritable> {

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        for (IntWritable value:values) {
            context.write(key, new IntWritable(value.get()));
        }
      }
}



public static void main(String[] args) throws Exception {

    Job job1 = new Job();
    Job job2 = new Job();

   job1.setJobName("wordCount");

   job1.setJarByClass(simpleWordExample.class);

   job1.setOutputKeyClass(Text.class);
   job1.setOutputValueClass(IntWritable.class);

   job1.setMapperClass(Map.class);
   job1.setCombinerClass(Reduce.class);
   job1.setReducerClass(Reduce.class);

   job1.setInputFormatClass(TextInputFormat.class);
   job1.setOutputFormatClass(TextOutputFormat.class);

   FileInputFormat.setInputPaths(job1, new Path("file:///home/cloudera/data.txt"));
   FileOutputFormat.setOutputPath(job1, new Path("file:///home/cloudera/output"));


   job2.setJobName("WordCount1");

   job2.setJarByClass(simpleWordExample.class);

   job2.setOutputKeyClass(Text.class);
   job2.setOutputValueClass(IntWritable.class);

   job2.setMapperClass(Map1.class);
   job2.setCombinerClass(Reduce1.class);
   job2.setReducerClass(Reduce1.class);

   job2.setInputFormatClass(TextInputFormat.class);
   job2.setOutputFormatClass(TextOutputFormat.class);

   FileInputFormat.setInputPaths(job2, new Path("file:///home/cloudera/output/part-00000"));
   FileOutputFormat.setOutputPath(job2, new Path("file:///home/cloudera/outputFinal"));


   job1.submit();
   if (job1.waitForCompletion(true)) {
       job2.submit();
       job2.waitForCompletion(true);
   }
}

我在控制台中得到的错误:

15/05/02 09:56:34 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/05/02 09:56:37 WARN conf.Configuration: session.id is deprecated. Instead, use dfs.metrics.session-id
15/05/02 09:56:37 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
15/05/02 09:56:39 WARN mapreduce.JobSubmitter: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
15/05/02 09:56:39 WARN mapreduce.JobSubmitter: No job jar file set.  User classes may not be found. See Job or Job#setJar(String).
15/05/02 09:56:39 INFO input.FileInputFormat: Total input paths to process : 1
15/05/02 09:56:41 INFO mapreduce.JobSubmitter: number of splits:1
15/05/02 09:56:41 WARN conf.Configuration: mapred.output.value.class is deprecated. Instead, use mapreduce.job.output.value.class
15/05/02 09:56:41 WARN conf.Configuration: mapreduce.combine.class is deprecated. Instead, use mapreduce.job.combine.class
15/05/02 09:56:41 WARN conf.Configuration: mapreduce.map.class is deprecated. Instead, use mapreduce.job.map.class
15/05/02 09:56:41 WARN conf.Configuration: mapred.job.name is deprecated. Instead, use mapreduce.job.name
15/05/02 09:56:41 WARN conf.Configuration: mapreduce.reduce.class is deprecated. Instead, use mapreduce.job.reduce.class
15/05/02 09:56:41 WARN conf.Configuration: mapreduce.inputformat.class is deprecated. Instead, use mapreduce.job.inputformat.class
15/05/02 09:56:41 WARN conf.Configuration: mapred.input.dir is deprecated. Instead, use mapreduce.input.fileinputformat.inputdir
15/05/02 09:56:41 WARN conf.Configuration: mapred.output.dir is deprecated. Instead, use mapreduce.output.fileoutputformat.outputdir
15/05/02 09:56:41 WARN conf.Configuration: mapreduce.outputformat.class is deprecated. Instead, use mapreduce.job.outputformat.class
15/05/02 09:56:41 WARN conf.Configuration: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps
15/05/02 09:56:41 WARN conf.Configuration: mapred.output.key.class is deprecated. Instead, use mapreduce.job.output.key.class
15/05/02 09:56:41 WARN conf.Configuration: mapred.working.dir is deprecated. Instead, use mapreduce.job.working.dir
15/05/02 09:56:45 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local1998350370_0001
15/05/02 09:56:48 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
15/05/02 09:56:48 INFO mapreduce.Job: Running job: job_local1998350370_0001
15/05/02 09:56:48 INFO mapred.LocalJobRunner: OutputCommitter set in config null
15/05/02 09:56:48 INFO mapred.LocalJobRunner: OutputCommitter is org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
15/05/02 09:56:48 INFO mapred.LocalJobRunner: Waiting for map tasks
15/05/02 09:56:48 INFO mapred.LocalJobRunner: Starting task: attempt_local1998350370_0001_m_000000_0
15/05/02 09:56:48 INFO mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
15/05/02 09:56:48 INFO mapred.MapTask: Processing split: file:/home/cloudera/data.txt:0+1528889
15/05/02 09:56:48 INFO mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
15/05/02 09:56:52 INFO mapreduce.Job: Job job_local1998350370_0001 running in uber mode : false
15/05/02 09:56:52 INFO mapred.MapTask: (EQUATOR) 0 kvi 26214396(104857584)
15/05/02 09:56:52 INFO mapred.MapTask: mapreduce.task.io.sort.mb: 100
15/05/02 09:56:52 INFO mapred.MapTask: soft limit at 83886080
15/05/02 09:56:52 INFO mapred.MapTask: bufstart = 0; bufvoid = 104857600
15/05/02 09:56:52 INFO mapred.MapTask: kvstart = 26214396; length = 6553600
15/05/02 09:56:52 INFO mapreduce.Job:  map 0% reduce 0%
15/05/02 09:56:57 INFO mapred.LocalJobRunner: 
15/05/02 09:56:57 INFO mapred.MapTask: Starting flush of map output
15/05/02 09:56:57 INFO mapred.MapTask: Spilling map output
15/05/02 09:56:57 INFO mapred.MapTask: bufstart = 0; bufend = 2109573; bufvoid = 104857600
15/05/02 09:56:57 INFO mapred.MapTask: kvstart = 26214396(104857584); kvend = 25406616(101626464); length = 807781/6553600
15/05/02 09:56:58 INFO mapred.LocalJobRunner: map > sort
15/05/02 09:56:58 INFO mapreduce.Job:  map 67% reduce 0%
15/05/02 09:56:59 INFO mapred.LocalJobRunner: Map task executor complete.
15/05/02 09:56:59 WARN mapred.LocalJobRunner: job_local1998350370_0001
java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: simpleWordExample$Reduce.<init>()
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:401)
Caused by: java.lang.RuntimeException: java.lang.NoSuchMethodException: simpleWordExample$Reduce.<init>()
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:131)
    at org.apache.hadoop.mapred.Task$NewCombinerRunner.combine(Task.java:1619)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1603)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1452)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:693)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:761)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:338)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:233)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:441)
    at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)
    at java.util.concurrent.FutureTask.run(FutureTask.java:138)
    at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)
    at java.lang.Thread.run(Thread.java:662)
Caused by: java.lang.NoSuchMethodException: simpleWordExample$Reduce.<init>()
    at java.lang.Class.getConstructor0(Class.java:2706)
    at java.lang.Class.getDeclaredConstructor(Class.java:1985)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:125)
    ... 13 more
15/05/02 09:57:00 INFO mapreduce.Job: Job job_local1998350370_0001 failed with state FAILED due to: NA
15/05/02 09:57:00 INFO mapreduce.Job: Counters: 21
    File System Counters
        FILE: Number of bytes read=1529039
        FILE: Number of bytes written=174506
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
    Map-Reduce Framework
        Map input records=30292
        Map output records=201946
        Map output bytes=2109573
        Map output materialized bytes=0
        Input split bytes=93
        Combine input records=0
        Combine output records=0
        Spilled Records=0
        Failed Shuffles=0
        Merged Map outputs=0
        GC time elapsed (ms)=122
        CPU time spent (ms)=0
        Physical memory (bytes) snapshot=0
        Virtual memory (bytes) snapshot=0
        Total committed heap usage (bytes)=165613568
    File Input Format Counters 
        Bytes Read=1528889

感谢您的宝贵时间和帮助!

编辑全局:使用新的 api

最佳答案

我自己从未使用过 hadoop，但看起来 hadoop 正在尝试使用默认的无参数构造函数实例化“Map”实例。它抛出 NoSuchMethodException，因为它找不到无参数的构造函数。

关于java - 排序的 Hadoop WordCount Java，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29989661/

文章推荐： javascript - 如何发起一个简单的 CORS 请求？

文章推荐： hadoop - MultipleOutputs 具有不同的 FileOutputFormat

文章推荐： http - rfc2616 中的 "1#"是什么

文章推荐： hadoop - MIT StarCluster 和 S3

eclipse - 在 org.apache.hadoop.examples.WordCount.main(WordCount.java :84)
我用eclipse调试hadoop，出现错误，如何解决这个问题 log4j:WARN No appenders could be found for logger (org.apache.hadoop
c++ - 当 wordCount 中不存在键时，我应该对 unordered_map 使用++wordCount[key] 吗？
见下面的代码: unordered_map wordCount; for(string word: words) ++wordCount[word]; 问题: 当wordCount 中不存在w
java - GCP 数据流快速入门运行 WordCount 示例时出错 : Unknown lifecycle phase ".mainClass=org.apache.beam.examples.WordCount"
我正在尝试从这里开始学习 GCP Cloud Dataflow 的“使用 Java 快速入门”https://cloud.google.com/dataflow/docs/quickstarts/qu
node.js - 激活扩展 `ms-vscode.wordcount` 失败 : Cannot find module 'd:/VSCode/vscode-wordcount/out/extension'
我尝试在代码中构建和调试扩展。我从https://github.com/microsoft/vscode-wordcount下载了字数统计的样本. 当我单击 F5 时，未生成 ./out 文件夹，并
java - Hadoop Java 错误 : Exception in thread "main" java. lang.NoClassDefFoundError: WordCount (wrong name: org/myorg/WordCount)
我是 hadoop 的新手。我按照 maichel-noll 教程在单节点中设置 hadoop。我尝试运行 WordCount 程序。这是我使用的代码: import java.io.IOExcept
Hadoop Wordcount 程序编译错误
我是hadoop编程新手。我正在使用eclipse进行hadoop开发。我通过java buildpath添加了所有jar文件，当我运行我的程序时它没有运行并给出这个错误，所以请帮助我。如何解决错误？
eclipse - 如何使用eclipse调试hadoop wordcount？
我想使用eclipse调试wordcount，因为我想查看作业如何在JobTracker中运行。但是hadoop使用Proxy，我不知道该作业如何在JobTracker中运行的具体过程。我应该如何调试
java - 带保证消息处理的 WordCount
我正在尝试运行保证消息处理的 WordCount 示例。只有一个喷口 WSpout - 发出带有 msgID 的随机句子。和两个 bolt SplitSentence - 在单词中拆分句子并使用锚
java - WordCount 项目缺陷
我正在做一个类项目，该项目计算文本文件中的单词、行、字符和段落的总数。到目前为止，就文字而言，它是有效的，但我的字符数似乎减少了 3 个，并且该段落似乎正在计算两个额外的空行，我得到的是 5 个而不是
Hadoop WordCount 输出
我是 hadoop 的新手，正在运行一些示例以更加熟悉它。我运行了 wordcount，当我去检查输出时 hadoop fs -cat outt 我得到了 3 个目录，而不是通常名为 outt/par
java - Wordcount 示例错误
有谁知道如何解决这个错误？我了解到我可以在 fileutils.setPermission 中进行编辑并使用 checkReturnValue 删除行，但我不知道如何操作。 13/03/10 13:0
Hadoop - WordCount 的结果未写入输出文件
我正在尝试运行一个程序，按照此链接中给出的步骤来计算单词的数量及其频率:http://developer.yahoo.com/hadoop/tutorial/module3.html 我加载了一个名为
python - wordcount:reduce python程序抛出ValueError
每当尝试在Hadoop系统中运行Reducer python程序时，都会出现此错误。 Mapper程序可以完美运行。与我的Mapper程序具有相同的权限。是否存在语法错误？追溯(最近一次通话): 在
java - 每个文件计数的 WordCount 示例
我在获取每个文件的单词出现总数的分割时遇到了问题。例如，我有四个文本文件(t1、t2、t3、t4)。单词 w1 在文件 t2 中出现了两次，在 t4 中出现了一次，总共出现了 3 次。我想在输出文
hadoop - 在多节点集群上运行mapreduce wordcount(Java代码)
我试图使用eclipse在hadoop多节点群集上运行wordcount java程序(该程序在单节点群集上工作正常，但在多节点上无法运行)。我正在返回关注信息 INFO ipc.Client: Re
java - WordCount MapReduce 给出了意外的结果
我正在尝试这个java代码来计算mapreduce中的字数，在完成reduce方法后，我想显示出现最多次数的唯一单词。为此，我创建了一些名为 myoutput、mykey 和completeSum
java - 无法编译 WordCount.java
mark@maestro1:/usr/lib/hadoop/wordcount_classes$ javac -classpath /usr/lib/hadoop/hadoop-common-2.0.
Hadoop MapReduce WordCount 示例缺陷？
引用基本的WordCount例子:https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-cli
windows - Hadoop WordCount 示例
成功创建 hadoop 环境后，当我要在版本 0.19.1 的 hadoop 中运行这个 wordcount 示例时，它给我这样的错误，我该如何解决 11/12/30 06:46:13 INFO ma
Hadoop - WordCount 运行良好，但另一个示例卡住了
我在我的 mac 上的单个节点上运行 WordCount 并且它工作，所以我制作了另一个 MapReduce 应用程序并运行它，但它卡在 map 10% reduce 0% 并且有时在 map 0%

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 排序的 Hadoop WordCount Java