gpt4 book ai didi

Hadoop:需要从所有数据节点中删除单个数据目录

转载 作者:可可西里 更新时间:2023-11-01 14:21:45 26 4
gpt4 key购买 nike

我需要从我所有的 Hadoop HDFS 数据节点回收磁盘空间。它们各自配置如下:

<property>
<name>dfs.data.dir</name>
<value>/d01,/d02,/d03</value>
</property>

我应该如何安全地从所有节点中删除/d03 文件系统并重新平衡它们?我已经尝试过停用节点、删除目录并重新启用,但是速度很慢,想知道是否有更好的方法?

最佳答案

修复实际上非常简单,只需了解 HDFS 的用途即可。文件系统是具有容错能力的复制 block 的分布式集合。因此,只需从集群中的数据节点中删除额外的目录并重新启动就足以导致 block 的重新同步和复制发生。

监控 NameNode 日志和 WebUI“复制不足的 block 数”以辨别该过程何时完成。

对集群中的所有节点单独重复。

几个注意事项:

确保

  • 没有复制不足的 block ,通过检查: http://<name-node>:50070 ,

  • 其他文件系统有足够的磁盘空间,

  • 复制级别至少设置为 2,以确保集群可以容忍 block 丢失。理想情况下,为了安全起见,这应该是三个或更多。

关于Hadoop:需要从所有数据节点中删除单个数据目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25975902/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com