gpt4 book ai didi

hadoop - 通过 hadoop 访问数据?一步一步的解释

转载 作者:可可西里 更新时间:2023-11-01 16:34:19 25 4
gpt4 key购买 nike

我想了解需要通过 HDFS 访问数据时发生的每个步骤。在哪里可以找到对 HDFS 上的写/读操作的逐步说明。

我很清楚名称节点包含文件系统特定元数据这一事实。但我想确切地知道存储在名称节点上的数据是什么。这是我的猜测:当各个数据节点使用它们托管的各个 block 的 block 信息更新名称节点时,当它们启动时,名称节点只有文件名(具有完整的目录结构)和存储该文件数据的 block 号。每当读/写进入时,它都会从名称节点写入/读取 block 号,并根据名称节点存储在内存中的反向映射接近数据节点(该映射在数据节点出现时由数据节点构建和更新)告诉文件操作,哪个 block 号由哪个数据节点托管,因此哪些数据节点需要写入/读取信息。如果有人可以证实这一点,这只是一个猜测和希望。此外,这是映射器从指定为 map reduce 作业输入的文件读取的方式,唯一的区别是作业跟踪器可以执行找出数据节点并在相应数据节点上生成映射器的工作吗?

最佳答案

Where can I find a step by step explanation of a write/read operation on HDFS.

检查 this用于从 HDFS 读取/写入数据的漫画。它不涉及 API 级别的细节,而是在较高级别进行描述。另外,this关于 HDFS 的文章很有趣。

I am well aware of the fact that the namenode contains filesystem specific metadata. But I want to know exactly what is the data which is stored on the namenode.

使用这些 instructions 可以离线转储 HDFS 元数据内容.

关于hadoop - 通过 hadoop 访问数据?一步一步的解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13008606/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com