gpt4 book ai didi

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

转载 作者:可可西里 更新时间:2023-11-01 14:51:49 26 4
gpt4 key购买 nike


我有一个带有 1 个主节点和 2 个节点(工作节点 + 数据节点)的 spark 集群。
我想添加另一个数据节点。 问题是,当我执行 hdfs dfs -setrep -R -w 2 时,结果是:

    1st datanode -> DFS Used%: 75.61%
2nd datanode -> DFS Used%: 66.78%
3rd datanode -> DFS Used%: 8.83%

您知道如何平衡 hdfs 中的 block ,以便每个 block 大约为 30 -> 33% 吗?

谢谢

最佳答案

运行 balancer ,集群平衡实用程序。这将重新平衡数据节点之间的数据。

hdfs balancer -threshold <threshold_value>

-threshold 决定了磁盘容量的百分比。默认值为 10。

这指定每个 DataNode 的磁盘使用率必须或应该调整到集群总体使用率的 10% 以内。

此过程可能需要更长的时间,具体取决于要平衡的数据量,并且不会影响集群操作。

或者,执行 Datanode Commissioning如果选择添加其他节点。

关于hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42141498/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com