gpt4 book ai didi

hadoop - 在哪里可以查看最近的 HDFS 使用统计信息(文件夹、文件、时间戳)?

转载 作者:可可西里 更新时间:2023-11-01 15:56:26 25 4
gpt4 key购买 nike

在过去的 10 天里,我发现 HDFS 上的磁盘使用量很大。正如我在 Cloudera Manager 的 Hosts 选项卡上的 DataNode 主机和 HDFS 服务上的 Disk Usage 图表中看到的那样,服务使用率几乎增加了两倍,从 ~7TB 到 ~20TB。起初我以为这是我在这 10 天中的第 6 天升级到 CM 和 CDH 时做错了什么,但后来意识到它已经开始发生了。

我首先检查了 Cloudera Manager 上的文件浏览器,但发现那里的大小数字与之前没有区别。我还有过去 4 天的磁盘使用报告,他们说没有增加。

运行 hdfs dfsadmin -report 也会返回相同的结果。

Linux 上的 dfs 文件夹证实了使用量的增加,但我不知道更改了什么,因为有数百万个文件,而且我不知道如何检查数千个嵌套文件夹中的最后修改文件。即使找到它们,我也无法分辨 HDFS 上的文件是什么。

然后就在最近,我得知 HDFS 上的另一个用户一直在拆分他们的大文件。他们拥有所有数据的近 2/3。如果他们将它们拆分成比 HDFS block 大小小得多的 block ,是否会导致如此大的增长?如果是这样,为什么我在浏览器/报告中看不到它?

有什么方法可以检查 HDFS 中最近修改了哪些文件夹和文件或我可以检查/做的其他事情?任何建议或评论表示赞赏。

最佳答案

为了检查 HDFS 事件,Cloudera Navigator 提供了有关记录在 HDFS 中的所有事件的出色信息。

登录 Navigator 后,检查审核选项卡。它还允许我们过滤诸如删除、ip 地址、用户名和许多此类内容的事件。

普通搜索页面还为我们提供了过滤 block 大小(是否 < 256Mb,> 256 Mb)、文件或目录、源类型、路径、复制计数等等。

关于hadoop - 在哪里可以查看最近的 HDFS 使用统计信息(文件夹、文件、时间戳)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43064894/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com