hadoop - NLineInputFormat 无效-6ren

hadoop - NLineInputFormat 无效

转载作者：可可西里更新时间：2023-11-01 14:29:29

26

4

我使用的是 Hadoop 0.20.2，并且使用的是旧 API。我正在尝试将数据 block 发送到映射器，而不是一次发送一行(数据涵盖多行)。我尝试使用 NLineInputFormat 来设置一次获取多少行，但映射器仍然一次只接收 1 行。我很确定我有正确的代码。是否有任何原因导致这无法工作？

供您引用，

JobConf conf = new JobConf(WordCount.class);

conf.setInt("mapred.line.input.format.linespermap", 2);

conf.setInputFormat(NLineInputFormat.class);

基本上，我使用的示例代码来自 http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Example%3A+WordCount+v1.0 , 仅更改 TextInputFormat。

提前致谢

最佳答案

NLineInputFormat 旨在确保映射器都接收到相同数量的输入记录(每个文件拆分的最后部分除外)。

因此，通过将输入属性更改为 2，每个映射器(最多)应该一次接收 2 个输入对，而不是 2 个输入行(这正是我认为您正在寻找的)。

您应该能够通过查看每个映射任务的计数器来确认这一点，“映射输入记录”对于大多数映射器而言应该报告 2

关于hadoop - NLineInputFormat 无效，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11002000/

26

4

0

文章推荐： csv - 在 hadoop 应用程序中读写 CSV 文件

文章推荐： python - Hadoop 流 : reporting error

文章推荐： eclipse - 使用 Eclipse 开发、测试和调试 Hadoop map/reduce 作业

hadoop - NLineInputFormat 无效
我使用的是 Hadoop 0.20.2，并且使用的是旧 API。我正在尝试将数据 block 发送到映射器，而不是一次发送一行(数据涵盖多行)。我尝试使用 NLineInputFormat 来设置一次
Hadoop:使用 NLineInputFormat 进行压缩？
$ cat abook.txt | base64 –w 0 >onelinetext.b64 $ hadoop fs –put onelinetext.b64 /input/onelinetext.b
java - Mapreduce:NLineInputFormat 抛出错误
我已经为我们的映射器编写了自定义 Recordreader，以便一次从源文件接收 3 条记录(3 行)，而不是 TextInputFormat 默认提供的 1 行。以下是示例代码片段。扩展 Text
scala - NLineInputFormat 在 Spark 中不起作用
我想要的基本上是让每个数据元素由 10 行组成。但是，使用以下代码，每个元素仍然是一行。我在这里犯了什么错误？ val conf = new SparkConf().setAppName("MyApp
java - NLineInputFormat 用法超出了 GC 开销限制
我正在尝试读取映射器中的多行。为此，我开始使用 NLineInputFormat 类。使用它时，我收到 GC 限制错误。作为引用，错误代码是: 16/02/21 01:37:13 INFO mapre
java - 如何将 hadoop 输入格式设置为 NLineInputFormat？
我试图限制每个映射器获得的行数。我的代码是这样的: package com.iathao.mapreduce; import java.io.IOException; impo
java - 何时在 Hadoop Map-Reduce 中使用 NLineInputFormat？
我有一个基于文本的输入文件，大小约为25 GB。在该文件中，一条记录由 4 行组成。每条记录的处理都是相同的。但是在每条记录中，四行中的每一行都以不同的方式处理。我是 Hadoop 的新手，所以我
java - Hadoop:当我们使用 NLineInputFormat 时，Mappers 是否并行运行？
如果是，HDFS 如何将输入文件拆分为 N 行以供每个映射器读取？我相信这是不可能的! 当拆分器需要偏移量或字节进行拆分时，可以在不处理整个输入文件的情况下进行拆分。但是当 '\n' 或换行符的数

首页

博学

6Ren·AI

商城

hadoop - NLineInputFormat 无效