gpt4 book ai didi

hadoop - HDFS block 拆分

转载 作者:可可西里 更新时间:2023-11-01 14:25:21 24 4
gpt4 key购买 nike

我的 Hadoop 知识只有 4 周。我正在使用带有 Hadoop 的沙箱。

根据理论,当一个文件被复制到HDFS文件系统时,它会被分割成128MB的 block 。然后每个 block 将被复制到不同的数据节点,然后复制到数据节点。

问题:

  1. 当我将数据文件 (~500 MB) 从本地文件系统复制到 HDFS(put 命令)时,整个文件仍然存在于 HDFS(-ls 命令)中。我期待看到 128 MB block 。我在这里做错了什么?

  2. 如果假设,我设法在 HDFS 中拆分和分发数据文件,有没有办法合并原始文件并将其检索回本地文件系统?

最佳答案

  1. 您不会看到来自 -ls 命令的各个 block 。这些在逻辑上等同于硬盘驱动器上的 block 未显示在 Linux 的 ls 或 Windows 资源管理器中。您可以在命令行上执行此操作,例如 hdfs fsck/user/me/someFile.avro -files -blocks -locations,或者您可以使用 NameNode UI 查看哪些主机具有文件 block ,以及每个 block 在哪些主机上复制。
  2. 当然可以。您只需执行 hdfs dfs -get/user/me/someFile.avro 之类的操作,或者使用 HUE 或 NameNode UI 下载文件。所有这些选项都会将适当的 block 流式传输给您,以将逻辑文件重新组合在一起。

关于hadoop - HDFS block 拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30359145/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com