gpt4 book ai didi

Hadoop MapReduce : TextInputFormat: Meaning of position

转载 作者:可可西里 更新时间:2023-11-01 16:30:45 26 4
gpt4 key购买 nike

我试图理解文档中说“TextInputFormat 用作纯文本文件的 InputFormat。文件被分成几行。换行符或回车符用于表示行结束。键是在文件中的位置,值为文本行"

“位置”是什么意思?是文件中的行号吗?

给定文件中的数据

  dobbs   2007      20      18     15
dobbs 2008 22 20 12
doctor 2007 545525 366136 57313
doctor 2008 668666 446034 72694

它会产生这样的 map 输入吗?

  (1,  "dobbs   2007    20  18  15")
(2, "dobbs 2008 22 20 12")
(3, "doctor 2007 545525 366136 57313")
(4, "doctor 2008 668666 446034 72694")

最佳答案

在TextInputFormat中,Keys是文件中从文件开头到字节偏移量

即,对于第一行,偏移量或键将为 0对于第二行,偏移量或键将是第一行的长度
对于第三行,偏移量将是第一行的偏移量+第一行的长度

不,它不会像您期望的那样生成 map 输入,(假设每个单词由一个空格分隔)它更像是

(0,dobbs 2007 20 18 15)
(20,dobbs 2008 22 20 12)
(40,doctor 2007 545525 366136 57313)
(71,doctor 2008 668666 446034 72694)

关于Hadoop MapReduce : TextInputFormat: Meaning of position,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33662571/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com