Hadoop MapReduce : TextInputFormat: Meaning of position-6ren

Hadoop MapReduce : TextInputFormat: Meaning of position

转载作者：可可西里更新时间：2023-11-01 16:30:45

26

4

我试图理解文档中说“TextInputFormat 用作纯文本文件的 InputFormat。文件被分成几行。换行符或回车符用于表示行结束。键是在文件中的位置，值为文本行"

“位置”是什么意思？是文件中的行号吗？

给定文件中的数据

  dobbs   2007      20      18     15
  dobbs   2008      22      20     12
  doctor  2007  545525  366136  57313
  doctor  2008  668666  446034  72694

它会产生这样的 map 输入吗？

  (1,  "dobbs   2007    20  18  15")
  (2,  "dobbs   2008    22  20  12")
  (3,  "doctor  2007    545525  366136  57313")
  (4,  "doctor  2008    668666  446034  72694")

最佳答案

在TextInputFormat中，Keys是文件中从文件开头到行的字节偏移量

即，对于第一行，偏移量或键将为 0对于第二行，偏移量或键将是第一行的长度
对于第三行，偏移量将是第一行的偏移量+第一行的长度

不，它不会像您期望的那样生成 map 输入，(假设每个单词由一个空格分隔)它更像是

(0,dobbs 2007 20 18 15)
(20,dobbs 2008 22 20 12)
(40,doctor 2007 545525 366136 57313)
(71,doctor 2008 668666 446034 72694)

关于Hadoop MapReduce : TextInputFormat: Meaning of position，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33662571/

26

4

0

文章推荐： hadoop - 更改hadoop中的复制因子

文章推荐： http - 无法分配请求的地址 : make_sock: could not bind to address

hadoop - 没有键值 TextInputFormat？
什么是 KeyValueTextInputFormat 对应的 OutputFormat 类？我想在输出中的键和值之间放置一些分隔符。最佳答案 TextOutputFormat 将写入配对。您可
Hadoop MapReduce TextInputFormat - 如何完成文件拆分
根据我的理解，TextInputFormat 应该在换行符处准确拆分，但根据我在网站上看到的一些答案，我似乎错了。有没有人有更好的解释，哪个选项是正确的？以下哪项最能描述 TextInputForm
java - hadoop textinputformat 每个文件只读一行
我为hadoop 0.20.2写了一个简单的map任务，输入数据集由44个文件组成，每个大约3-5MB。任何文件的每一行都具有 int,int 格式.输入格式默认为TextInputFormat映射器
java - mapreduce.TextInputFormat hadoop
我是一个 hadoop 初学者。我遇到了this自定义 RecordReader 程序，一次读取 3 行并输出 3 行输入被提供给映射器的次数。我能够理解为什么要使用 RecordReader，但是
Hadoop MapReduce : TextInputFormat: Meaning of position
我试图理解文档中说“TextInputFormat 用作纯文本文件的 InputFormat。文件被分成几行。换行符或回车符用于表示行结束。键是在文件中的位置，值为文本行" “位置”是什么意思？是文件
Java 和 Hadoop : Incompatible types with TextInputFormat
我正在使用 hadoop 核心 0.20.2，在尝试为我的工作设置输入格式时遇到了不兼容类型的问题。我只是想让一个简单的 wordcount 程序运行。这是我的主要方法: public static
java - 不能在 Java 中使用 XmlInputFormat extends TextInputFormat
我正在尝试使用 Hadoop 进行 WordCount。我想使用 XmlInputFormat.class 根据 XML 标记拆分文件。 XmlInputFormat.class 是 here Xml
python - Hadoop Streaming with TextInputFormat 和 Python - 跟踪行号
我正在尝试计算方阵上每条对角线的总和。我正在使用 Python 和 Hadoop 流式处理，但我找不到任何方法来配置 Hadoop 流式处理以获取每行的偏移量 this guy说，使用 TextInp
hadoop - 在 sparksql 中设置 textinputformat.record.delimiter
在 spark2.0.1 和 hadoop2.6.0 中，我有很多文件用 '!@!\r' 分隔，而不是通常的换行符\n，例如: ====================================
hadoop - hadoop 中的 KeyValueTextInputFormat 和 TextInputFormat 之间的主要区别是什么？
谁能给我一个我们必须使用 KeyValueTextInputFormat 和 TextInputFormat 的实际场景？？最佳答案 TextInputFormat 类将源文件的每一行转换为键/值类
java - TextInputFormat VS 非 UTF-8 编码
我必须编写一个 map reduce 批处理(使用 org.apache.hadoop.mapreduce.* API)来处理具有以下属性的文本文件: ISO-8859-1编码。类似 CSV 分隔符
scala - 在 spark 中设置 textinputformat.record.delimiter
在 Spark 中，可以设置一些 hadoop 配置设置，例如 System.setProperty("spark.hadoop.dfs.replication", "1") 这有效，复制因子设置为
java - 无法在 Map Side Join 中使用 Composite textinputFormat
我正在尝试使用 CompositeTextInoutFormat 实现 Map-side join。但是，我在 Map reduce 作业中遇到以下错误，我无法解决。1. 在下面的代码中，我在使用 C
hadoop - 如果 hadoop 中的 TextInputFormat，KeyClass 和 ValueClass 的输入类型是什么
如果我们使用 TextInputFormat，我想知道 KeyClass 和 ValueClass 的数据类型是什么。 In Ref，来自 Hadoop 权威指南第 4 版。 “输入类型是通过输入格式
hadoop - 在 hadoop mapreduce 的 TextInputFormat 中什么是字节偏移量？键如何作为字节偏移量，值如何作为行的内容？
在浏览 CustomInputFormat 主题时，我了解到我们有一些默认的输入格式，例如 TextInputFormat、KeyValueInputFormat、SequencefileInputF
hadoop - 如何在配置单元 cli/beeline 中将 textinputformat.record.delimiter 重置为其默认值？
将 textinputformat.record.delimiter 设置为非默认值，对于加载多行文本很有用，如下面的演示所示。但是，我无法在不退出 cli 并重新打开它的情况下将此参数设置回其默认

首页

博学

6Ren·AI

商城

Hadoop MapReduce : TextInputFormat: Meaning of position