gpt4 book ai didi

Hadoop block 大小 vs 拆分 vs block 大小

转载 作者:可可西里 更新时间:2023-11-01 14:27:40 27 4
gpt4 key购买 nike

我对 Hadoop 的概念有点困惑。

Hadoop block 大小、拆分大小和 block 大小 之间有什么区别?

提前致谢。

最佳答案

block 大小和 block 大小相同。 拆分大小 可能与 block / block 大小不同。

Map Reduce 算法不适用于文件的物理 block 。它适用于逻辑输入拆分。输入拆分取决于记录的写入位置。一条记录可能跨越两个映射器。

HDFS 的设置方式是,它将非常大的文件分解成大块(例如,测量 128MB),并将这些 block 的三个副本存储在集群中的不同节点上。 HDFS 不知道这些文件的内容。

为解决此问题,Hadoop 使用存储在文件 block 中的数据的逻辑表示,称为输入拆分。当 MapReduce 作业客户端计算输入拆分时,它会找出 block 中第一个完整记录的开始位置以及 block 中最后一个记录的位置 block 结束。

如果 block 中的最后一条记录不完整,输入拆分包括下一个 block 的位置信息和完成记录所需数据的字节偏移量。

enter image description here

看看这个article了解更多详情。

相关的 SE 问题:

About Hadoop/HDFS file splitting

Split size vs Block size in Hadoop

关于Hadoop block 大小 vs 拆分 vs block 大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34704312/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com