gpt4 book ai didi

hadoop - Hadoop是如何拆分文件的?

转载 作者:可可西里 更新时间:2023-11-01 16:59:22 26 4
gpt4 key购买 nike

我想知道文件在 Hadoop 中是如何拆分的。我的意思是,我知道它们按一定大小(例如 64MB)拆分,但中断是否发生在行尾或某个字符等处?

还有名称节点如何跟踪文件拆分的顺序,例如从数据节点收集文件后如何按顺序组装它们。

最佳答案

LineRecordReader 读取每一行并将键/值对发送到映射器实例。
如果 EOL 出现在定义的 block 大小(在本例中为 64MB)之前,读者将继续阅读下一行。
现在,如果读取器达到 block 大小而不是 EOL,那么它将继续读取直到 EOL 并设置为 block 。
现在,下一个 block 从阅读器停止的地方开始(即,在 EOL 之后)。

Reference

关于hadoop - Hadoop是如何拆分文件的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26422732/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com