gpt4 book ai didi

Hadoop MapReduce TextInputFormat - 如何完成文件拆分

转载 作者:可可西里 更新时间:2023-11-01 16:25:35 25 4
gpt4 key购买 nike

根据我的理解,TextInputFormat 应该在换行符处准确拆分,但根据我在网站上看到的一些答案,我似乎错了。有没有人有更好的解释,哪个选项是正确的?

以下哪项最能描述 TextInputFormat 的工作原理?

  1. 输入文件拆分可能会跨行。包含虚线末尾的拆分的 RecordReader 读取跨越文件拆分的行。

  2. 输入文件恰好在换行符处被拆分,因此每个 Record Reader 都会读取一系列完整的行。

  3. 输入文件拆分可能会跨行。包含断行开头的拆分的 RecordReader 读取跨越文件拆分的行。

  4. 输入文件拆分可能会跨行。忽略穿过图 block 分割线的线。

  5. 输入文件拆分可能会跨行。包含断线的两个拆分的 RecordReaders 读取跨越文件拆分的行。

最佳答案

选项1.是正确的。第一次拆分的最后一行将是第一次拆分的一部分,即使这会导致远程读取并遭受数据局部性问题。

线的末端与分割边界重合并不总是可能的。

关于Hadoop MapReduce TextInputFormat - 如何完成文件拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33267636/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com