gpt4 book ai didi

hadoop - Hadoop 中的 Block、chunk 和 file split 有什么区别?

转载 作者:可可西里 更新时间:2023-11-01 16:56:16 33 4
gpt4 key购买 nike

请澄清一下 1) Hadoop 中 block 、 block 和文件拆分之间有什么区别??2)$hadoop fs -put命令的内部流程是什么?

最佳答案

block :Hdfs 以 block 的形式进行对话,例如:如果您有 256 MB 的文件,并且您已将 block 大小配置为 128 MB,那么现在会为 256 MB 创建 2 个 block 。

block 大小在整个集群甚至文件基础上都是可配置的。

拆分:它与 map reduce 相关,您可以选择更改拆分大小,这意味着您可以将拆分大小修改为大于 block 大小或将拆分大小修改为小于 block 大小。默认情况下,如果您不进行任何配置,那么您的拆分大小大约等于 block 大小。

在 map reduce 处理中,生成的映射器数量将等于您的拆分数:对于一个文件,如果有 10 个拆分,那么将生成 10 个映射器。

当 put 命令被触发时,它转到 namenode,namenode 询问客户端(在这种情况下 hadoop fs 实用程序的行为就像一个客户端),将文件分成 block 并根据 block 大小,这可以在 hdfs 中定义- site.xml 然后,namenode 要求客户端将不同的 block 写入不同的数据节点。

实际数据将存储在数据节点上,数据的元数据意味着文件的 block 位置和文件属性将存储在名称节点上。

client首先与name node建立连接,一旦确认了 block 的存储位置,就直接创建一个与数据节点建立 tcp 连接并写入数据。

基于复制因子,其他副本将在 hadoop 集群中维护,它们的 block 信息将存储在 namenode 上。

但是在任何情况下,数据节点都不会有 block 的重复副本,这意味着不会在同一节点上复制相同的 block 。

关于hadoop - Hadoop 中的 Block、chunk 和 file split 有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29547637/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com