hadoop - Hadoop中NullWritable键类型的Mapreduce自定义分区-6ren

hadoop - Hadoop中NullWritable键类型的Mapreduce自定义分区

转载作者：行者123 更新时间：2023-12-02 21:05:04

27

4

我有一个要求，我只需要HBase的值而不需要行键就可以写入输出文件。
为此，我将NullWritable.class用作 map 输出键类型。
现在我必须基于column值对我的输出数据进行分区。但是，正如我们所知，自定义分区基于键工作，为此，我遇到了异常。

Caused by: java.io.IOException: Illegal partition for (null) (40)

这正是我在MapTask.class中得到异常的地方

 if (partition < 0 || partition >= partitions) {
          throw new IOException("Illegal partition for " + key + " (" +
              partition + ")");
        }

在这里，我的分区值如何为1，并将其与我的return int分区40进行比较，然后抛出异常

这是我正在使用的驱动程序代码。

TableMapReduceUtil.initTableMapperJob(args[0], // input table
                scan, // Scan instance to control CF and attribute selection
                DefaultMapper.class, // mapper class
                NullWritable.class, // mapper output value
                Text.class, // mapper output key
                job);

这是我的分区代码

public class FinancialLineItemPartioner extends Partitioner< NullWritable,Text> {
    public int getPartition(NullWritable key, Text value, int setNumRedTask) {
        String str = key.toString();
        if (str.contains("Japan|^|BUS")) {
            return 0;
        } else if (str.contains("Japan|^|CAS")) {
            return 1;
        } else if (str.contains("Japan|^|CUS")) {
            return 2;
        }else {
            return 3;
         }

请建议..

注意:如果我互换了map-output键/值参数，那么我的reducer无法正常工作。

最佳答案

问题出在VM中。在集群环境中，相同的代码可以正常工作。

关于hadoop - Hadoop中NullWritable键类型的Mapreduce自定义分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42184717/

27

4

0

文章推荐： docker - Docker COPY失败，没有这样的文件或目录

文章推荐： .net - 是否有适用于 Windows Phone 7 的 SIP 库？

文章推荐： hadoop - WARN rumen.TraceBuilder:在跟踪中找不到作业

hadoop - NullWritable 的目的
我想统计订了电影票的学生人数，并且我只想在 reduce 阶段后输出一个结果。我希望映射器发出学生人数而不是 key 。我可以使用 NullWritable 作为输出键，以便映射端不会发出任何内容作为
hadoop - NullWritable 是映射器可接受的输入键吗？
我正在编写一个自定义 recordReader，它将键值对输出到我的映射器。我真的只需要输出值而不需要键，所以我计划为我的键使用 NullWritable，为我的值使用 Text。我基本上使用的是
RCFIle 格式文件的 Hadoop NullWritable
我不太理解Hadoop 中的NullWritable 的概念。它的用途是什么？为什么 RCFile 的 outputKeyClass 格式为 NullWritable.class 而 outputVa
hadoop - context.write() 方法中的 NullWritable
我如何才能在我的 context.write() 方法中只放入值。我不想在我的文本文件中写入 key ，所以我不想在我的 context.write() 方法中发出 key 。这是我的映射器代码:
输出键为 NullWritable 时的 Hadoop reducer 输出顺序
我正在编写一个 hadoop 应用程序，其最终输出是一个 bmp 图像。我将输出格式更改为 byte，这是我的问题:如果我将输出键设置为 NullWritable，reducer 输出顺序会是什么？
hadoop - 使用 NullWritable 作为 OutputKeyClass，但我没有得到预期的结果
我只是想输出值，所以我使用 NullWritable 作为 OutputKeyClass，像这样: protected void reduce(Text key, Iterable values,
java - 在 Hadoop 中使用 NullWritable 的优势
对 null 键/值使用 NullWritable 比使用 null 文本(即 new Text(null) )。我从《Hadoop:权威指南》一书中看到以下内容。 NullWritable is a
scala - 无法在 Scala 中为 Array[NullWritable, ByteWritable] 编写 SequenceFile
我在 Scala 中有一个字节数组:val nums = Array[Byte](1,2,3,4,5,6,7,8,9) 或者您可以采用任何其他字节数组。我想将它保存为HDFS 中的序列文件。下面是代
java - org.apache.hadoop.io.Text无法转换为org.apache.hadoop.io.NullWritable
我想将序列文件转换为MapReduce中的ORC文件。键/值的输入类型为文本/文本。我的程序看起来像 public class ANR extends Configured implements
hadoop - 为什么 spark 抛出带有序列文件的 NotSerializableException org.apache.hadoop.io.NullWritable
为什么 spark 使用序列文件抛出 NotSerializableException org.apache.hadoop.io.NullWritable？我的代码(非常简单): import org
java - 带有 Phoenix 的MapReduce:org.apache.hadoop.io.LongWritable无法转换为org.apache.hadoop.io.NullWritable
我正在尝试从另一个表(“mea_data”)中收集的数据中将值插入表(“mea_interval”)中。这个想法不是唯一的，它标识数据类型。我使用MeasureWritable类来读写数据库，它实现了
java - 映射 : expected org. apache.hadoop.io.NullWritable 中的值类型不匹配，已收到 org.apache.hadoop.io.Text
我正在尝试调整现有问题以满足我的需要.. 基本上输入的都是简单的文本我处理它并将键/值对传递给 reducer我创建了一个 json.. 所以有关键但没有值(value)所以映射器: 输入:文本/文本

首页

博学

6Ren·AI

商城

hadoop - Hadoop中NullWritable键类型的Mapreduce自定义分区