gpt4 book ai didi

hadoop - hdfs datanode无法回收本地磁盘空间,如果在关闭一段时间后重新启动

转载 作者:行者123 更新时间:2023-12-02 20:46:22 25 4
gpt4 key购买 nike

我正在使用 hadoop 2.9.0 作为分布式文件存储系统进行POC,因此设置了一个多节点群集设置,其中包含1个namenode和4个datanode(包括master),其复制因子为2。

现在,在执行一系列复制操作之后,我决定停止一个datanode(slave2)。然后,当slave2仍处于关闭状态时,我使用hdfs dfs -rm -skipTrash命令清理了几GB的数据。

后来,我重新启动了我已停止的slave2数据节点,看来它没有清理停机期间从hdfs中删除的数据块。

我继续添加/删除更多数据,以查看它是否可以与主namenode同步,并执行本地清理以回收磁盘空间,但事实并非如此。

以下是每个节点上的数据消耗:

slave2:

hduser@slave2:~$ hdfs dfs -du -s -h /
4.5 G /
hduser@slave2:~$ du -sh /hadoop-tmp/
7.7G /hadoop-tmp/ [<-- notice extra 2.2 GB of data present on local disk]

管理员:
hduser@master:~$ du -sh /hadoop-tmp/
4.6G /hadoop-tmp/
hduser@master:~$ hdfs dfs -du -s -h /
4.5 G /

slave1:
hduser@slave1:~$ hdfs dfs -du -s -h /
4.5 G /
hduser@slave1:~$ du -sh /hadoop-tmp/
4.5G /hadoop-tmp/

slave3:
hduser@slave3:/$ du -sh /hadoop-tmp/
2.8G /hadoop-tmp/
hduser@slave3:/$ hdfs dfs -du -s -h /
4.5 G /

我想我的问题是“slave2 datenode与主namenode同步需要多少时间,以确认它已经从HDFS集群中删除了本地存储的数据块,因此需要清理它。如果发生的话加类,那么我们可以控制同步的持续时间吗?”

如果这不会发生,那么如何从出现故障并在一段时间后恢复的数据节点中回收磁盘空间呢?

最佳答案

您可能考虑运行FSCK来识别群集上不一致的块,然后再采取必要的措施删除不再保留的数据块。

关于hadoop - hdfs datanode无法回收本地磁盘空间,如果在关闭一段时间后重新启动,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47864272/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com