hadoop - 群集主机具有比HDFS似乎更多的存储空间/可以访问吗？如何增加HDFS存储使用量？-6ren

hadoop - 群集主机具有比HDFS似乎更多的存储空间/可以访问吗？如何增加HDFS存储使用量？

转载作者：行者123 更新时间：2023-12-02 19:12:59

25

4

在HDFS(HDP v3.1.0)的耗尽存储空间的情况下出现问题(这也导致在接受模式下挂起 Spark 作业的问题)。我假设存在一些配置，我可以让HDFS使用节点主机上节点上已经存在的更多存储空间，但是通过快速谷歌搜索确实不清楚。有经验的人可以帮忙吗？

在Ambari UI中，我看到了...

(从ambari UI)

(从NameNode UI)。

但是，当通过ambari UI查看整个主机时，似乎仍然在群集主机上剩余了很多空间(此列表中的最后4个节点是数据节点，每个节点总共有140GB的存储空间)

不确定哪些设置是相关的，但是这里是ambari中的常规设置:

我对“HDFS的保留空间”设置的解释是，它显示应该为非DFS(即本地FS)存储保留13GB的空间，因此看来HDFS已经用完了空间似乎没有任何意义。
我是错误地解释了吗？
其他任何HDFS配置应该在此问题中显示吗？

查看HDFS的磁盘使用情况，我看到...

[hdfs@HW001 root]$ hdfs dfs -du -h /
1.3 G    4.0 G    /app-logs
3.7 M    2.3 G    /apps
0        0        /ats
899.1 M  2.6 G    /atsv2
0        0        /datalake
39.9 G   119.6 G  /etl
1.7 G    5.2 G    /hdp
0        0        /mapred
92.8 M   278.5 M  /mr-history
19.5 G   60.4 G   /ranger
4.4 K    13.1 K   /services
11.3 G   34.0 G   /spark2-history
1.8 M    5.4 M    /tmp
4.3 G    42.2 G   /user
0        0        /warehouse

总共约269GB的 consumed(也许设置 shorter interval to spark-history cleanup也会有所帮助？)。看着HDFS上的可用空间，我看到...

[hdfs@HW001 root]$ hdfs dfs -df -h /
Filesystem                        Size     Used  Available  Use%
hdfs://hw001.ucera.local:8020  353.3 G  244.1 G     31.5 G   69%

但是ambari报告的容量为91％，所以这对我来说似乎很奇怪(除非我在这里误解了某些内容(LMK))。这也与我在查看hdfs datanode dirs所在的本地FS上的磁盘空间时看到的大致冲突...

[root@HW001 ~]# clush -ab -x airflowet df -h /hadoop/hdfs/data
HW001: df: ‘/hadoop/hdfs/data’: No such file or directory
airflowetl: df: ‘/hadoop/hdfs/data’: No such file or directory
---------------
HW002
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   93G  8.0G  93% /
---------------
HW003
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   94G  7.6G  93% /
---------------
HW004
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   92G  9.2G  91% /
---------------
HW005
---------------
Filesystem                       Size  Used Avail Use% Mounted on
/dev/mapper/centos_mapr001-root  101G   92G  9.8G  91% /

在 block report中查找hdfs根...

[hdfs@HW001 root]$ hdfs fsck / -files -blocks
.
.
.
Status: HEALTHY
 Number of data-nodes:  4
 Number of racks:               1
 Total dirs:                    8734
 Total symlinks:                0

Replicated Blocks:
 Total size:    84897192381 B (Total open files size: 10582 B)
 Total files:   43820 (Files currently being written: 10)
 Total blocks (validated):      42990 (avg. block size 1974812 B) (Total open file blocks (not validated): 8)
 Minimally replicated blocks:   42990 (100.0 %)
 Over-replicated blocks:        0 (0.0 %)
 Under-replicated blocks:       1937 (4.505699 %)
 Mis-replicated blocks:         0 (0.0 %)
 Default replication factor:    3
 Average block replication:     3.045057
 Missing blocks:                0
 Corrupt blocks:                0
 Missing replicas:              11597 (8.138018 %)

Erasure Coded Block Groups:
 Total size:    0 B
 Total files:   0
 Total block groups (validated):        0
 Minimally erasure-coded block groups:  0
 Over-erasure-coded block groups:       0
 Under-erasure-coded block groups:      0
 Unsatisfactory placement block groups: 0
 Average block group size:      0.0
 Missing block groups:          0
 Corrupt block groups:          0
 Missing internal blocks:       0
FSCK ended at Tue May 26 12:10:43 HST 2020 in 1717 milliseconds


The filesystem under path '/' is HEALTHY

我假设存在 一些配置，我可以让HDFS使用节点主机上节点上已经存在的更多存储空间，但是通过快速谷歌搜索确实不清楚。有经验的人可以帮忙吗？另外，如果这是由于我没有看到的其他问题，是否有人可以使用LMK？

最佳答案

您没有提到/tmp中是否存在不良数据，例如可以清除的数据。

每个数据节点具有88.33 GB的存储空间？

如果是这样，您将无法仅创建新的HDD来挂接到群集并突然创建空间。
dfs.data.dir中的hdfs-site是每个数据节点上已装入卷的逗号分隔列表。

要获得更多存储空间，您需要格式化和装入更多磁盘，然后编辑该属性。

关于hadoop - 群集主机具有比HDFS似乎更多的存储空间/可以访问吗？如何增加HDFS存储使用量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62031318/

25

4

0

文章推荐： bash - 如何从Nagios设置对Docker容器的监视

文章推荐： playframework - 用于微服务应用的 Docker

文章推荐： docker - Fleet无法启动Docker注册表容器

文章推荐： hadoop - 配置单元一行命令以捕获SCHEMA + TABLE NAME信息

hdfs - HDFS 文件如何存储在底层操作系统文件系统上？
HDFS 是 Hadoop 中的逻辑文件系统，块大小为 64MB。 HDFS 上的文件依次保存在底层操作系统文件系统上，比如 ext4，块大小为 4KiB。据我所知，对于本地文件系统上的文件，操作系
hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"
哪种工具最适合测量 HDFS 空间消耗？当我总结“hdfs dfs -du/”的输出时，与“hdfs dfsadmin -report”(“DFS Used”行)相比，我总是消耗更少的空间。是否有
hdfs - 将 HDFS 校验和与本地文件系统校验和进行比较
我正在尝试编写一个简单的脚本来验证 HDFS 和本地文件系统校验和。在 HDFS 上我得到 - [m@x01tbipapp3a ~]$ hadoop fs -checksum /user/m/fil
hdfs - 如何从 HDFS 恢复已删除的文件夹
我从 HDFS 中删除了一个文件夹，我在下面找到了它 /user/hdfs/.Trash/Current/ 但我无法恢复它。我查看了论坛，但没有找到好的解决方案。请有人有解决方案我可以帮助我如何在最
hdfs - Presto hdfs 本地读取和预聚合
在 5 个节点的集群上运行 Presto 大型扫描查询，看起来只有一个节点是查询协调器，并通过网络从 5 个 hdfs 节点读取数据。所有 presto 进程都在数据节点上运行。有没有办法让5个节
hdfs - 将文件放在名称中有空格的 HDFS 上
我有一个名为 file name(1).zip 的文件(里面有空格和括号)，我想把这个文件放在 HDFS 上。但是每次我尝试通过 hadoop fs -put ... 放置它时，我都会遇到异常。我什
hdfs - Presto hdfs 本地读取和预聚合
在 5 个节点集群上运行 Presto 大扫描查询，看起来只有一个节点是查询协调器，并通过网络从 5 个 hdfs 节点读取数据。所有presto进程都在数据节点上运行。有没有办法让5个节点使用s
hadoop hdfs 指向文件 :///not hdfs://
所以我在 CentOS 5 上通过 Cloudera Manager cdh3u5 安装了 Hadoop。当我运行 cmd 时 hadoop fs -ls/ 我希望看到 hdfs://localhos
hadoop - HDFS 错误 + 不完整的 HDFS URI，没有主机 : hdfs://l27. 0.0.1:9000
我用命令在hadoop上运行flume flume-ng agent -c conf -f conf/flume-twitter.conf -n TwitterAgent 现在我无法保存推特数据。它显
hadoop - 在 HDFS 的联邦中将数据从本地磁盘复制到 HDFS
我使用两台主机(hadoop-coc-1 和 hadoop-coc-2)尝试在其中配置 HDFS 联合。因此，我在两个主机(hadoop-coc-1 和 hadoop-coc-2)中配置了 $ cat
hadoop - 将大量文件从 hdfs 移动到 hdfs
我需要将大量文件从一个 hdfs 目录移动(而不是复制)到同一集群中的另一个 hdfs 目录。我可以使用 distcp，但它似乎有点矫枉过正，因为它正在复制文件(复制它)我只想移动它。两个问题: A
hadoop - 无法将文件写入 hdfs - 在安全模式下出现错误 hdfs
当我尝试将文件从我的本地目录复制到 HDFS 时，出现以下错误: [cloudera@localhost ~]$ hadoop fs -copyFromLocal hello.txt /user/
hadoop - HDFS 到 HDFS 完全强制移动文件
据我所知，在从一个 HDFS 位置移动到另一个位置时，没有直接选项可以覆盖 HDFS 中的文件，复制 cp 可以选择强制执行。我试图找出是否有任何黑客可以做到这一点？我们能做的是 hdfs dfs
hadoop - 如何将数据从一个 HDFS 复制到另一个 HDFS？
我有两个 HDFS 设置，想将一些表从 HDFS1 复制(而不是迁移或移动)到 HDFS2。如何将数据从一个 HDFS 复制到另一个 HDFS？是否可以通过 Sqoop 或其他命令行实现？最佳答案
hdfs - Kafka Storm HDFS/S3 数据流
目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。我想让 Kafka 将数据保存到 HDFS 或 S3，并将该数据的副本发送到 Storm 进行实时处理。 Storm
hdfs - 作为 EMR 步骤运行 HDFS 命令
如何发出 hdfs 命令作为 EMR 集群中的一个步骤？将步骤添加为 script_runner.jar 任务似乎奇怪地失败了。最佳答案使用 command-runner.jar 并调出 bash
hdfs - 作为 EMR 步骤运行 HDFS 命令
如何发出 hdfs 命令作为 EMR 集群中的一个步骤？将步骤添加为 script_runner.jar 任务似乎奇怪地失败了。最佳答案使用 command-runner.jar 并调出 bash
hadoop - 尝试更新 HDFS 中的文件时 HDFS 路径发生变化
我是 Hadoop 和 HDFS 的新手，所以当我从本地 (Ubuntu 10.04) 复制到本地主机上单个节点上的 HDFS 时，可能是我做错了什么。初始副本工作正常，但当我修改我的本地输入文件夹并
hadoop - 如何更改 hdfs 用户的 HDFS 用户主目录？
根据我在 Hadoop HDFS 上的实践，我了解到在创建用户 say u1 并尝试将文件从本地文件系统放入 HDFS 时，它会搜索目录 /user/u1 (默认情况下)对 HDFS 文件系统具有写入
hadoop - HDFS 将本地文件放入 hdfs 但出现 UnresolvedAddressException
我想将一个 70G 的文件放入 hdfs，所以我使用“put”命令来完成此操作。但是，我得到以下异常。我用相同的命令尝试了小尺寸文件，它有效。有谁知道是什么问题？谢谢! WARN [DataStre

首页

博学

6Ren·AI

商城

hadoop - 群集主机具有比HDFS似乎更多的存储空间/可以访问吗？如何增加HDFS存储使用量？