maven - 在CDH4上运行简单的MR作业-6ren

maven - 在CDH4上运行简单的MR作业

转载作者：行者123 更新时间：2023-12-02 20:06:23

25

4

我正在尝试使用CDH4运行一个简单的MR作业。我收到最奇怪的错误，我也不知道为什么。基本上，我的程序读取一个文件，使用一个标识映射器，然后reducer仅仅为该值发出一个键和一个字符串。我不明白为什么我的脚本无法正常工作。我在CDH3中从未遇到过这样的问题。任何建议都很好

错误:

14/03/26 20:35:45 INFO mapred.JobClient: Task Id : attempt_201403171159_0109_m_000002_2, Status : FAILED
java.lang.NumberFormatException: For input string: "256MB"
        at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
        at java.lang.Integer.parseInt(Integer.java:492)
        at java.lang.Integer.parseInt(Integer.java:527)
        at org.apache.hadoop.conf.Configuration.getInt(Configuration.java:1060)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init(MapTask.java:809)
        at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:376)
        at org.apache.hadoop.mapred.MapTask.access$100(MapTask.java:85)
        at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:584)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:656)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:268)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408)
        at org.apache.hadoop

Maven依赖项:

<dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>2.0.0-mr1-cdh4.4.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.0.0-cdh4.4.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-tools</artifactId>
            <version>2.0.0-mr1-cdh4.4.0</version>
        </dependency>

Maven仓库:

<repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
        <repository>
            <id>maven-hadoop</id>
            <name>Hadoop Releases</name>
            <url>https://repository.cloudera.com/content/repositories/releases/</url>
        </repository>
    </repositories>

MR代码:

package com.some.packagename;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;


public class MyMRJob extends Configured implements Tool {

    private static String inputPath = "someHDFSInputPath";
    private static String outputPath = "someHDFSOutputPath";

    public static void main(String[] args) throws Exception {


        Configuration conf = new Configuration();
        conf.set("mapred.job.tracker", "jtserver:8021");
        conf.set("fs.defaultFS", "hdfs://nnserver:8020");   
        ToolRunner.run(conf, new MyMRJob(), args);

    }

    public final int run(final String[] args) throws Exception {

        // Initialize
        Job job = new Job(super.getConf(),MyMRJob.class.getSimpleName());

        // General Configs
        job.setJarByClass(MyMRJob.class);       

        // Inputs       
        TextInputFormat.setInputPaths(job, inputPath);
        job.setInputFormatClass(TextInputFormat.class);

        // Mapper
        job.setMapperClass(TheMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);

        // Reducer
        job.setReducerClass(TheReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        // Output
        TextOutputFormat.setOutputPath(job, new Path(outputPath));
        job.setOutputFormatClass(TextOutputFormat .class);

        // Run the job
        boolean b = job.waitForCompletion(true);
        if (!b)
            throw new IOException("Error with the job - it has failed!");

        return 1;
    }

    private static class TheMapper extends Mapper<Text, Text, Text, Text> {
        protected void map(Text key, Text value, Context context) throws IOException, InterruptedException {
            context.write(key, value);
        }
    }

    public static class TheReducer extends Reducer<Text, Text, Text, Text> {

        public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            context.write(key, new Text("some value"));
        }
    }


}

最佳答案

看看你的

mapred-site.xml

它可能具有“256MB”之类的配置，尤其是以下属性。

mapred.child.java.opts and io.sort.mb

关于maven - 在CDH4上运行简单的MR作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22676067/

25

4

0

文章推荐： Docker 和 asp.net core 使用 "scratch"图像最小化分布？

文章推荐： hadoop - HDInsight Azure Blob存储数据更新

文章推荐： django - 如何使用Duck Duck船长处理Django数据库迁移？

文章推荐： azure - HDInsight Azure Blob存储更改

r - 使用 R 区分 "Mr"和 "Mrs"中的 Mr
我正在使用 grep 将“先生”和“夫人”替换为“先生”。和“夫人”，但每当我输入 gsub("Mr", "Mr.", data$Title) 它还会导致所有“夫人”变成“先生”，这不完全是我正在寻找
Hadoop:MR 启动的映射器比指定的少
我在一台远程机器(四核超线程)上安装了 Hadoop 1.2.1，并且正在用 1GB 的文件(一个文件，未压缩)测试 MR 的性能当我将拆分大小设置为大约 250MB 时，我有四个映射器。在输出文件
hadoop - MR 作业各个阶段的正确顺序？
我正在尝试了解 MR 作业经历的各个阶段。我阅读了相同的在线文档。据此，我对序列的理解如下: map() -> Partitioner -> Sorting (mapper machine) ->
hadoop - 将数据传输到Hadoop MR/Pig中的作业中
我在HDFS中的数据上运行三种不同类型的作业。在当前情况下，这三个作业必须分别运行。现在，we want to run the three jobs together by piping the
python - 崩溃 MR-3020
我有几个 MR-3020，我用 OpenWRT 刷过，并在上面安装了一个 16GB ext4 USB 驱动器。启动时，将启动一个守护进程 shell 脚本，它会做两件事: 1) 它不断查看我的主程序是
hadoop - 如何在运行 MR 作业时找到存储和读取特定文件的数据节点？
我有 9 个文件，每个文件的大小都等于集群的 BlockLength，存储在 hadoop 中。我需要获取文件所在的数据节点的地址。复制因子为 3 。是否有任何 hadoop API 可以执行此操作
sql - 配置单元加入失败 mr.MapredLocalTask
我是 HIVE 和 HADOOP 的新手，在这里我试图在 hive 中加入两个示例表，其中表没有任何主外键关系只是为了练习:- 表格如下 Employees table:-
hadoop - 关于 MR inputsplit
据我所知，在将文件复制到 HDFS 时进行文件拆分和在文件上为映射器输入进行输入拆分是完全两种不同的方法。这是我的问题-- 假设我的 File1 大小是 128MB，它被分成两个 block 并存储
hadoop - 在 MR 单元中模拟上下文对象
我是 Hadoop 的新手，这是我的第一个映射器程序，我正在通过 MR 单元对其进行单元测试。我正在传递我通过配置对象设置的参数(年份) Configuration config =new
hadoop - Oozie MR 启动器有什么意义？
我使用 Sqoop、Hive 和 Pig 操作创建了一个简单的 Oozie 工作流。对于其中的每一个 Action ，Oozie 都会启动一个 MR 启动器，然后由它启动 Action (Sqoop/
git - MyRepos (MR) 默认配置
我正在运行 MR ( myrepos ) 并尝试运行全局配置。我曾尝试使用 .mrconfig 中的 DEFAULT 部分，但无济于事: [DEFAULT] clean = git clean -df
Kloxo-MR VPS主机控制面板-安装使用及中文设置方法
我们都知道kloxo这个国外非常著名的开源的服务器管理系统，虽然kloxo在国内使用起来会遇到不少的问题，但是由于kloxo可以与whmcs等整合，还是得到了不少朋友的喜爱。本文要介绍的klox
org.elasticsearch.hadoop.mr.WritableValueWriter类的使用及代码示例
本文整理了Java中org.elasticsearch.hadoop.mr.WritableValueWriter类的一些代码示例，展示了WritableValueWriter类的具体用法。这些代码示
sql-server - 在 FROM 子句中多次指定相关名称 'MR'
Create PROCEDURE [dbo].[K_RT_FixedAsset] @fromdate datetime, @todate datetime AS BEGIN SET NOCOUNT O
java - Hadoop mapreduce输入路径不存在(MR Job在寻找什么文件系统？)
我正在尝试在Hadoop集群上运行MR作业。一旦尝试成功，但是从昨天开始，我将无法运行同一命令，因为它找不到输入路径这是跟踪: [esb99usr@SBT-IPO-078 ~]$ yarn jar
hadoop - HBase MR-键/值不匹配
我正在尝试通过独立的HBase(0.94.11)执行MR代码。我已经阅读了HBase api，并修改了MR代码以读取数据并向HBase表写入结果，并且在reduce阶段遇到异常。提供部分代码(不包括
正则表达式提取带有匹配单词的句子，不停止在 "Mr."、 "Mrs."等处
我创建了一个正则表达式，可以提取包含匹配单词的句子。 [^.|?|!]*\[^.|!|?]*[\"!?:\.] 但是，它不适用于句子中含有先生/夫人/博士等的情况。例如: The adventure
python - MRJob MR 分配给Dictionary 而不是Yield？
我是 MRJob 和 MR 的新手，我想知道 MRJob MR 的传统字数统计 python 示例: from mrjob.job import MRJob class MRWordCounter(M
python - 用于提取以 Mr.|Mrs 开头的姓名的正则表达式
我试图编写正则表达式来识别以开头的名称 Mr.|Mrs. 例如 Mr. A, Mrs. B. 我尝试了几种表达方式。这些正则表达式已在在线工具 pythonregex.com 上进行检查。。使用的测
javascript - 简单的 MongoDB MR 未产生预期结果
我知道这可能非常简单或其他什么，但最近几个小时我一直在思考这个问题。我搞不清楚了。我有一个看起来像这样的集合(每个文档结构都是相同的) { "_id": "736722976", "val

首页

博学

6Ren·AI

商城

maven - 在CDH4上运行简单的MR作业