gpt4 book ai didi

hadoop - Hadoop 映射器如何处理部分溢出到下一个 block 的记录?

转载 作者:可可西里 更新时间:2023-11-01 16:28:48 25 4
gpt4 key购买 nike

我正在尝试详细学习 MapReduce,尤其是以下查询。

众所周知,HDFS 中的数据被分成 block ,通常 Mapper 一次处理一个 block ;我们可能会遇到 record 溢出到另一个 block 的情况;例如:

数据集:“你好,你好吗”;此数据可能会溢出到两个不同的 block 中。

block 1:

hello, how a

block 2:

re  
you doing

现在,如果 Mapper 在 Block1 上工作,mapper 如何从 block1 获取已经溢出到 Block2 的“完整”记录?

谁能帮我理解一下?

最佳答案

它适用于可以作为多个 block 存储在 HDFS 上的文件。然而,就映射器而言,它在文件和 block 上工作并且它们分割的位置无关紧要,它只会看到文件及其完整内容。

关于hadoop - Hadoop 映射器如何处理部分溢出到下一个 block 的记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46322476/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com