java - 在不创建 jar 文件的情况下运行 hadoop 作业-6ren

java - 在不创建 jar 文件的情况下运行 hadoop 作业

转载作者：可可西里更新时间：2023-11-01 15:55:57

我是 hadoop 的初学者，刚刚练习了一些教程项目。最初用 python 在 hadoop 中做项目，在那里我可以分别指定映射器和缩减器文件 hadoop jar/usr/local/hadoop/hadoop-2.8.0/share/hadoop/tools/lib/hadoop-streaming-2.8.0.jar -mapper mapper.py -reducer reducer.py -file mapper.py -file reducer.py -input input1 -output joboutput

但我想在 java 中做同样的事情，但我只能通过创建 jar 文件找到教程。我没有找到任何调试 java 映射器和缩减器代码的方法。是否有任何想法或可能性通过使用一些调试选项来测试我们的代码。

特此张贴我印象深刻的屏幕截图。

Sample input file in csv

映射器代码

    package SalesCountry;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.*;

public class SalesMapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
    //private final static IntWritable one = new IntWritable(1);

    public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {

        String valueString = value.toString();
        String[] SingleCountryData = valueString.split(",");
        output.collect(new Text(SingleCountryData[7]), new IntWritable(Integer.parseInt(SingleCountryData[2])));
    }
}

Reducer 代码

`package SalesCountry;

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.*;

public class SalesCountryReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {

    public void reduce(Text t_key, Iterator<IntWritable> values, OutputCollector<Text,IntWritable> output, Reporter reporter) throws IOException {
        Text key = t_key;
        int salesForCountry = 0;
        while (values.hasNext()) {
            // replace type of value with the actual type of our value
            IntWritable value = (IntWritable) values.next();
            salesForCountry += value.get();

        }
        output.collect(key, new IntWritable(salesForCountry));
    }
}
`

终端输出

$HADOOP_HOME/bin/hadoop jar TotalSalePerCountry.jar inputMapReduce mapreduce_output_sales
17/05/18 12:52:47 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id
17/05/18 12:52:47 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
17/05/18 12:52:47 INFO jvm.JvmMetrics: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
17/05/18 12:52:47 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
17/05/18 12:52:47 INFO mapred.FileInputFormat: Total input files to process : 1
17/05/18 12:52:47 INFO mapreduce.JobSubmitter: number of splits:1
17/05/18 12:52:47 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local1862814770_0001
17/05/18 12:52:47 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
17/05/18 12:52:47 INFO mapred.LocalJobRunner: OutputCommitter set in config null
17/05/18 12:52:47 INFO mapreduce.Job: Running job: job_local1862814770_0001
17/05/18 12:52:47 INFO mapred.LocalJobRunner: OutputCommitter is org.apache.hadoop.mapred.FileOutputCommitter
17/05/18 12:52:47 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 1
17/05/18 12:52:47 INFO output.FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false
17/05/18 12:52:47 INFO mapred.LocalJobRunner: Waiting for map tasks
17/05/18 12:52:47 INFO mapred.LocalJobRunner: Starting task: attempt_local1862814770_0001_m_000000_0
17/05/18 12:52:47 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 1
17/05/18 12:52:47 INFO output.FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false
17/05/18 12:52:47 INFO mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
17/05/18 12:52:47 INFO mapred.MapTask: Processing split: file:/home/deevita/MapReduceTutorial/inputMapReduce/SalesJan2009.csv:0+123638
17/05/18 12:52:47 INFO mapred.MapTask: numReduceTasks: 1
17/05/18 12:52:47 INFO mapred.MapTask: (EQUATOR) 0 kvi 26214396(104857584)
17/05/18 12:52:47 INFO mapred.MapTask: mapreduce.task.io.sort.mb: 100
17/05/18 12:52:47 INFO mapred.MapTask: soft limit at 83886080
17/05/18 12:52:47 INFO mapred.MapTask: bufstart = 0; bufvoid = 104857600
17/05/18 12:52:47 INFO mapred.MapTask: kvstart = 26214396; length = 6553600
17/05/18 12:52:47 INFO mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
17/05/18 12:52:47 INFO mapred.LocalJobRunner: map task executor complete.
17/05/18 12:52:47 WARN mapred.LocalJobRunner: job_local1862814770_0001
java.lang.Exception: java.lang.NumberFormatException: For input string: "Price"
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:489)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:549)
Caused by: java.lang.NumberFormatException: For input string: "Price"
    at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
    at java.lang.Integer.parseInt(Integer.java:580)
    at java.lang.Integer.parseInt(Integer.java:615)
    at SalesCountry.SalesMapper.map(SalesMapper.java:17)
    at SalesCountry.SalesMapper.map(SalesMapper.java:10)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:270)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
17/05/18 12:52:48 INFO mapreduce.Job: Job job_local1862814770_0001 running in uber mode : false
17/05/18 12:52:48 INFO mapreduce.Job:  map 0% reduce 0%
17/05/18 12:52:48 INFO mapreduce.Job: Job job_local1862814770_0001 failed with state FAILED due to: NA
17/05/18 12:52:48 INFO mapreduce.Job: Counters: 0
java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:873)
    at SalesCountry.SalesCountryDriver.main(SalesCountryDriver.java:38)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:234)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:148)
deevita@deevita-OptiPlex-7040:~/MapReduceTutorial$ $HADOOP_HOME/bin/hadoop jar TotalSalePerCountry.jar inputMapReduce mapreduce_output_sales
17/05/18 16:15:12 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id
17/05/18 16:15:12 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
17/05/18 16:15:12 INFO jvm.JvmMetrics: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initialized
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/deevita/MapReduceTutorial/mapreduce_output_sales already exists
    at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:131)
    at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:270)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:141)
    at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1341)
    at org.apache.hadoop.mapreduce.Job$11.run(Job.java:1338)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1807)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1338)
    at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:575)
    at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:570)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1807)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:570)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:561)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:870)
    at SalesCountry.SalesCountryDriver.main(SalesCountryDriver.java:38)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:234)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:148)

我知道这是数字格式异常，但要编译它我每次都必须构建 jar 文件那么有没有办法每次都单独执行 mapreduce 而无需构建 jar

最佳答案

NumberFormatException 可能来自空白(需要先修剪)。

我建议您为您的作业编写单元测试，这样您就可以在不执行整个 jar/部署周期的情况下调试它们。

这是一个使用 mrunit 的例子。

<dependency>
<groupId>org.apache.mrunit</groupId>
<artifactId>mrunit</artifactId>
<version>1.0.0</version>
<classifier>hadoop1</classifier>
<scope>test</scope>
</dependency>

测试

public class HadoopTest {
MapDriver<LongWritable, Text, Text, IntWritable> mapDriver;

@Before
public void setUp() {
    SalesMapper mapper = new SalesMapper();
    mapDriver = new MapDriver<LongWritable, Text, Text, IntWritable>();
    mapDriver.setMapper(mapper);
}

@Test
public void testMapper() throws Exception {
    mapDriver.withInput(new LongWritable(1), new Text("date,product,1200,Visa,carolina,baslidoni,england,UK"));
    mapDriver.withOutput(new Text("UK"), new IntWritable(1200));
    mapDriver.runTest();
}
}

关于java - 在不创建 jar 文件的情况下运行 hadoop 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44045856/

文章推荐： hadoop - 错误配置单元(使用 Derby): Source tables cannot be empty

spring-boot - 如果在同一个 Jar 中，为什么 Jars in Jars 不能看到 Jars 中其他 Jars 的内容？
tl;博士:我们的 Spring Boot jar 中的类似乎可以看到捆绑的 jar 中的类，但它们的内容似乎无法看到。为什么？我们的主要产品是一个网络应用程序，但所有的业务逻辑都集中在一个核心 m
jar - MR-Jars 可以覆盖其他 jar 中的类吗？
我有一个适用于 Java 8 的 jar。我想创建一个新 jar，它将是多版本 JAR 但为空，只有 META-INF/versions 中的“修补”类. 我想要一个单独的 jar，这样人们就可以在
java - 将 API .JAR 合并到我的 .JAR 应用程序中时遇到问题。 JAR 中的 JAR
免责声明: 在我得到“这个问题已经被问了 1000 次”的标准之前，让我说，是的，我知道。我读了又读又读。看了 JarJar 和 One-JAR，但问题是:我是自学成才的，只有几个月的经验，而且我不熟
Java Jar 将多个 jar 组合成一个可执行 Jar
我知道要组合多个 jar 并创建一个可执行 jar，我需要使用像 OneJar 这样的工具如果我不想解压相关的 jar 。 OneJar 有自己的自定义类加载器，可以在关联的 jar 中找到所需的类并
java - 如何在 Eclipse IDE 项目中将 a.jar、b.jar、c.jar、d.jar 合并到一个名为 e.jar 的 jar 中？你能告诉我们执行此操作的步骤吗？
在我的项目中，我使用许多 jar 文件来支持该项目。随着 jar 文件数量的增加，我想将所有 jar 文件移动到一个 jar 中并利用它。您能给我提供有用的链接吗？可以帮助我做到这一点。最佳答案有
jar - 删除目录中的重复 jar
我有一个脚本可以删除目录中的低版本 jars 文件。 #!/bin/bash #Script to remove lower version jar files. for PREFIX in `ls
jar - 如何以编程方式重新启动 jar？
可执行 jar 文件可以自行重启吗？例如，在用户做出一些选择后，程序会说“重新启动应用程序？”并且用户单击"is"，然后 jar 关闭并自行重新启动。最佳答案需要重新启动应用程序是糟糕设计的标志。
jar - .jar 文件根本打不开
过去两年我一直有这个问题。我有一个从 Internet 下载的 .jar 文件。它应该是一个魔方计时器。当我双击这个 .jar 文件时，没有任何反应。如果我将 .jar 文件设置为使用 java.
jar - Gradle项目依赖项未引用SNAPSHOT jar
我正在尝试在多项目Gradle构建中创建一个胖jar文件，如下所示: root +-- project1 +-- project2 project1提供了基本功能，然后project2将其用于
java - 如何以 jar 格式获得一个包含该 jar 内依赖项的最终 jar？
我需要 Maven 的配置，其中项目内的所有库都以 jar 格式保存在最终的 jar 中...所以我需要在最终的 jar 中包含 jar。为此我只能使用maven。我已经尝试过像 one-jar 这样
java - JAR、Fat JAR、可执行 JAR 之间的区别
JAR、Fat JAR 和 Executable JAR 之间有什么区别？它们是如何从命令行和 gradle.build 任务创建的(如果是 gradle 项目)？除了上面提到的以外，还有其他的JA
java - Maven 插件创建可执行 jar 与未解压的依赖项 (jar with jars)
我阅读了很多构建具有依赖项的可执行 jar 的解决方案(maven 阴影插件、maven 依赖项插件、maven 程序集插件)和所有这些插件解压依赖项 jar 并将它们重新打包到可执行 jar 中。唯
java - "java $SOME_ENV_VAR -jar application.jar"和 "java -jar $SOME_ENV_VAR application.jar"之间的区别
我想问一下java命令中-jar选项前后传递参数有什么区别。考虑 $SOME_ENV_VAR=-Dinstance=qa 最佳答案取决于SOME_ENV_VAR的内容；假设它包含有效的命令行参数，例
jar - Leiningen:创建可执行 jar 以在没有 java -jar 的情况下运行
我试图了解如何打包用 Clojure 编写的命令行应用程序进行分发。我不希望用户不得不使用 java -jar myproject.jar arg1 arg2运行程序。 PHP 有一个叫做“Phar”
jar - gradle - 如何构建一个带有 lib 目录和其他 jar 的 jar？
在 gradle 中 - 如何将 jar 嵌入到 lib 中的构建输出 jar 中目录(特别是 lib/enttoolkit.jar 和 lib/mail.jar)？最佳答案如果您的项目中的一个目
java - javadoc.jar、sources.jar 和 .jar 之间有什么区别？
查看 Google gson 2.8.5 ，我看到这里分发了几个 jar https://repo1.maven.org/maven2/com/google/code/gson/gson/2.8.5/
java - 在 JAR 中包含 JAR 会使类看不到 jar 内容
我正在将 jar 文件和一个主类合并到一个 jar 中。问题是我的主类使用这些 jar ，如果它在一个 jar 中，它就会抛出找不到类定义。如何让类(class)看到 jar 里的 jar ？最佳答
java - 在制作项目 jar 时包含一些 jar 并排除其他 jar 吗？
我正在使用 Maven 进行开发。我有一个要求，我想在我的项目 jar 中包含一些第三方 jar 并排除 pom.xml 文件中指定的其他 jar。下面是我的 pom.xml 文件。 4.0.0 c
java - 你能在一个 jar 文件中添加多个 jar 然后启动那个 jar 文件吗
我正在开发一个 GUI 应用程序，宁愿只分发一个 jar 而不是多个。你能用 list 来控制它吗？最佳答案另一种选择是使用自定义类加载器，例如这个: http://one-jar.source
java - : api. jar + impl.jar + bundle.jar 的用途是什么？
我看到许多 Java 包都有 api、impl 和 bundle jar(name-api.jar、name-impl.jar、name-bundle.jar)。有人可以解释这些是什么意思吗？应用程序

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 在不创建 jar 文件的情况下运行 hadoop 作业