gpt4 book ai didi

hadoop - Record Reader 读取虚线

转载 作者:可可西里 更新时间:2023-11-01 16:58:17 26 4
gpt4 key购买 nike

翻了一下cloudera的博客,得到一篇文章(链接在下面)。引用第三点。

http://blog.cloudera.com/blog/2011/01/lessons-learned-from-clouderas-hadoop-developer-training-course/

根据我的理解,如果有 2 个输入拆分,那么第一个输入拆分的记录读取器将读取虚线。

如果我没弄错,你能告诉我它是怎么做到的吗,即第一个拆分的记录读取器如何读取输入拆分后的虚线?

最佳答案

As per my understanding, if there are 2 input splits, then the broken line will be read by the record reader of the first input split.

是的,这是正确的。

can you tell me how it does that i.e how the record reader of the first split reads the broken line past the input split

InputSplit 不包含原始数据,而是包含提取数据所需的信息。 FileInputSplit(这是您所指的)包含文件的路径以及要在文件中读取的字节偏移量。然后由 RecordReader 读取数据。这意味着它可以读取超过由拆分定义的结束字节偏移量。

关于hadoop - Record Reader 读取虚线,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27293374/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com