java - 调用 InputSplit 的 getClass() 时来自 Hadoop 的 JobSplitWriter/SerializationFactory 的 NullPointerException-6ren

java - 调用 InputSplit 的 getClass() 时来自 Hadoop 的 JobSplitWriter/SerializationFactory 的 NullPointerException

转载作者：可可西里更新时间：2023-11-01 14:19:14

我得到一个 NullPointerException启动 MapReduce 时工作。它被 SerializationFactory 抛出的 getSerializer()方法。我正在使用自定义 InputSplit , InputFormat , RecordReader和 MapReduce值类。

我知道在我的 InputFormat 创建拆分后一段时间后会抛出错误类，但在创建 RecordReader 之前.据我所知，它是在“清理暂存区”消息之后直接发生的。

通过检查堆栈跟踪指示的位置中的 Hadoop 源，看起来错误发生在 getSerialization() 时。收到空值 Class<T>指针。 JobClient 的 writeNewSplits()像这样调用该方法:

Serializer<T> serializer = factory.getSerializer((Class<T>) split.getClass());

因此，我假设当getClass()正在按我的习惯要求 InputSplit对象，它返回一个 null指针，但这只是莫名其妙。有什么想法吗？

错误的完整堆栈跟踪如下:

12/06/24 14:26:49 INFO mapred.JobClient: Cleaning up the staging area hdfs://localhost:54310/tmp/hadoop-s3cur3/mapred/staging/s3cur3/.staging/job_201206240915_0035Exception in thread "main" java.lang.NullPointerException    at org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73)    at org.apache.hadoop.mapreduce.split.JobSplitWriter.writeNewSplits(JobSplitWriter.java:123)    at org.apache.hadoop.mapreduce.split.JobSplitWriter.createSplitFiles(JobSplitWriter.java:74)    at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:968)    at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:979)    at org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174)    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897)    at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)    at java.security.AccessController.doPrivileged(Native Method)    at javax.security.auth.Subject.doAs(Subject.java:396)    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)    at org.apache.hadoop.mapreduce.Job.submit(Job.java:500)    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530)    at edu.cs.illinois.cogcomp.hadoopinterface.infrastructure.CuratorJob.start(CuratorJob.java:94)    at edu.cs.illinois.cogcomp.hadoopinterface.HadoopInterface.main(HadoopInterface.java:58)    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)    at java.lang.reflect.Method.invoke(Method.java:597)    at org.apache.hadoop.util.RunJar.main(RunJar.java:156)

Thanks!

EDIT: My code for the custom InputSplit follows:

import . . .

/**
 * A document directory within the input directory. 
 * Returned by DirectoryInputFormat.getSplits()
 * and passed to DirectoryInputFormat.createRecordReader().
 *
 * Represents the data to be processed by an individual Map process.
 */
public class DirectorySplit extends InputSplit {
    /**
     * Constructs a DirectorySplit object
     * @param docDirectoryInHDFS The location (in HDFS) of this
     *            document's directory, complete with all annotations.
     * @param fs The filesystem associated with this job
     */
    public  DirectorySplit( Path docDirectoryInHDFS, FileSystem fs )
            throws IOException {
        this.inputPath = docDirectoryInHDFS;
        hash = FileSystemHandler.getFileNameFromPath(inputPath);
        this.fs = fs;
    }

    /**
     * Get the size of the split so that the input splits can be sorted by size.
     * Here, we calculate the size to be the number of bytes in the original
     * document (i.e., ignoring all annotations).
     *
     * @return The number of characters in the original document
     */
    @Override
    public long getLength() throws IOException, InterruptedException {
        Path origTxt = new Path( inputPath, "original.txt" );
        HadoopInterface.logger.log( msg );
        return FileSystemHandler.getFileSizeInBytes( origTxt, fs);
    }

    /**
     * Get the list of nodes where the data for this split would be local.
     * This list includes all nodes that contain any of the required data---it's
     * up to Hadoop to decide which one to use.
     *
     * @return An array of the nodes for whom the split is local
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    public String[] getLocations() throws IOException, InterruptedException {
        FileStatus status = fs.getFileStatus(inputPath);

        BlockLocation[] blockLocs = fs.getFileBlockLocations( status, 0,
                                                              status.getLen() );

        HashSet<String> allBlockHosts = new HashSet<String>();
        for( BlockLocation blockLoc : blockLocs ) {
            allBlockHosts.addAll( Arrays.asList( blockLoc.getHosts() ) );
        }

        return (String[])allBlockHosts.toArray();
    }

    /**
     * @return The hash of the document that this split handles
     */
    public String toString() {
        return hash;
    }

    private Path inputPath;
    private String hash;
    private FileSystem fs;
}

最佳答案

InputSplit 不扩展 Writable，您需要明确声明您的输入拆分实现 Writable

关于java - 调用 InputSplit 的 getClass() 时来自 Hadoop 的 JobSplitWriter/SerializationFactory 的 NullPointerException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11180776/

文章推荐： php - 重音字符使独立的 PHP 解释器崩溃

文章推荐： C#，FormBorderStyle :None Restore Issue

文章推荐： hadoop: reducer 输出到另一个 reducer

hadoop - mapreduce 中的 InputSplits
我刚刚开始学习 Mapreduce 并且有一些我想回答的问题。开始: 1)案例1:FileInputFormat作为输入格式。具有多个要处理的文件的目录是输入路径。如果我有 n 个文件，所有文件小于
java - 用于大型文本文件的 Hadoop InputSplit
在 hadoop 中，我想将一个文件(几乎)平均分配给每个映射器。该文件很大，我想使用在作业开始时定义的特定数量的映射器。现在我已经自定义了输入拆分，但我想确保如果我将文件拆分为两个(或多个拆分)我不
hadoop - hadoop 中的作业客户端如何计算 inputSplits
我正在尝试深入了解 map reduce 架构。我正在咨询这个http://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop
image - Hadoop InputSplit 之间是否重叠？
我正在做一项 Hadoop 工作，对一个或多个可能非常大的 PGM 文件进行卷积。每个映射器将处理来自其中一个文件的一定数量的行，并且缩减器将文件重新组合在一起。但是，每个映射器都需要在其进行卷积的上
hadoop - 关于 MR inputsplit
据我所知，在将文件复制到 HDFS 时进行文件拆分和在文件上为映射器输入进行输入拆分是完全两种不同的方法。这是我的问题-- 假设我的 File1 大小是 128MB，它被分成两个 block 并存储
hadoop - 如何处理 inputsplit 的多行记录？
我有一个 100 TB 的文本文件，它有多行记录。而且我们没有给出每条记录占用多少行。一个记录可以是 5 行，另一个可以是 6 行，另一个可以是 4 行。不确定每条记录的行大小是否不同。所以我不能使
hadoop - InputSplit 映射器 JobTracker 交互
以下是我对 InputSplits 及其与映射器的交互的理解...如果我在某处有误，请纠正我... InputFormat 生成 InputSplits，并为每个 inputsplit 生成一个映射任
hadoop - Hadoop 中的 InputSplit 自定义
我了解到，在 Hadoop 中，大输入文件拆分为小文件，并通过映射函数在不同的节点中进行处理。我还了解到我们可以自定义 InputSplit。我想知道的是 InputSplit 是否可以进行以下类型的
hadoop - 如果 InputSplit 大小与 Block 大小不同会怎样？
假设存储在 HDFS 中时， block 大小是默认的 64MB。现在我将 InputSplit 大小更改为 128MB。其中一个数据节点在本地只存储了 1 个信息 block 。 JobTrack
java - 我们可以为 FileInputFormat 自定义 InputSplit 大小吗？
让我们考虑一个生成 1000 个 map task 的 MapReduce 作业。区 block 大小:128MB最小拆分大小:1MB最大拆分大小:256MB block 大小似乎是限制值。我们能
scala - Spark 在 Hbase 的 InputSplit 期间给出空指针异常
我使用的是 Spark 1.2.1、Hbase 0.98.10 和 Hadoop 2.6.0。在从 hbase 检索数据时出现空点异常。在下面找到堆栈跟踪。 [sparkDriver-akka.ac
hadoop - Inputsplit、RecordReader & Map 实例和 Mapper 之间的数据流
如果我有一个包含 1000 行的数据文件......并且我在我的字数统计程序的 map 方法中使用了 TextInputFormat。因此，数据文件中的每一行都将被视为一个拆分。 RecordRead
java - 如何修复NoSuchMethodError:org.apache.hadoop.mapred.InputSplit.write
我在hadoop上写一个项目。我有一个一维字符串数组。它的名称是“words”。想要将其发送到 reducer ，但出现此错误: Exception in thread "main" java.la
Hadoop2.4.0 创建 39063 映射任务以在具有无效 Inputsplit 配置的本地模式下处理 10MB 文件
我正在使用 hadoop-2.4.0，所有默认配置如下: FileInputFormat.setInputPaths(job, new Path("in")); //10mb file; just
java - Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit
我使用自定义 InputFormat 和 RecordReader 创建了自定义 loadFunc。每当 InputFormat 返回多个输入拆分时，PigSplit 始终仅包含一个输入拆分并且仅使用
java - 调用 InputSplit 的 getClass() 时来自 Hadoop 的 JobSplitWriter/SerializationFactory 的 NullPointerException
我得到一个 NullPointerException启动 MapReduce 时工作。它被 SerializationFactory 抛出的 getSerializer()方法。我正在使用自定义 In
scala - Spark 读取 HBase 与 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.InputSplit.getLocationInfo 错误
我想用 scala 读取 Hbase by Spark，但是我得到了错误: 线程“dag-scheduler-event-loop”java.lang.NoSuchMethodError 中的异常:o

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 调用 InputSplit 的 getClass() 时来自 Hadoop 的 JobSplitWriter/SerializationFactory 的 NullPointerException