gpt4 book ai didi

hadoop - 如何减少 HDFS 目录中的复制因子及其影响

转载 作者:可可西里 更新时间:2023-11-01 14:48:17 25 4
gpt4 key购买 nike

我们使用 Hortonworks HDP 2.1 (HDFS 2.4),复制因子为 3。我们最近停用了一个数据节点,这在集群中留下了很多复制不足的 block 。

Cluster 现在正在尝试通过在其他节点之间分配复制 block 来满足复制因子。

  1. 如何停止该进程。我可以接受一些文件只被复制两次。如果我在该目录中将复制因子更改为 2,该进程是否会终止?

  2. 对于包含 3 个副本的文件的目录,将复制因子设置为 2 会产生什么影响。集群是否会启动另一个进程来删除每个文件的 3 个副本的多余副本?

感谢您对此的帮助。也请分享引用资料。谢谢。萨吉瓦。

最佳答案

We have recently decommissioned a datanode and that left a lot of under replicated blocks in the cluster.

如果 DataNode 被优雅地退役,那么它不应该导致复制不足的 block 。但是,作为一种边缘情况,如果停用节点使总节点数低于文件上设置的复制因子,那么根据定义,该文件的 block 将被复制不足。 (例如,考虑一个具有 3 个 DataNode 的 HDFS 集群。停用一个节点会导致剩余 2 个 DataNode,因此现在复制因子为 3 的文件具有复制不足的 block 。)

在停用期间,HDFS 将托管在该 DataNode 上的 block 重新复制(复制)到集群中的其他 DataNode,以便维持所需的复制因子。此处有更多详细信息:

  1. How do I stop that process. I am OK with some files being replicated only twice. If I change the replication factor to 2 in that directory, will that process be terminated?

没有确定的方法来终止整个过程。但是,如果你将一些复制不足的文件的复制因子降低到 2,那么 NameNode 将停止为这些文件的 block 安排重新复制工作。这意味着对于这些文件的 block ,HDFS 将停止跨不同的 DataNode 复制新副本。

从容错的角度来看,典型的复制因子 3 是可取的。您可能会考虑稍后将这些文件的复制因子设置回 3。

  1. What's the impact of making the replication factor to 2 for a directory which has files with 3 copies. Will the cluster start another process to remove the excess copy for each file with 3 copies?

是的,NameNode 会将这些文件标记为过度复制。作为响应,它将在 DataNode 上安排 block 删除以恢复所需的复制因子 2。这些 block 删除被异步分派(dispatch)到 DataNode,以响应它们的心跳。在 DataNode 中, block 删除异步执行以从磁盘中清除底层文件。

有关这方面的更多详细信息,请参阅 Apache Hadoop Wiki .

关于hadoop - 如何减少 HDFS 目录中的复制因子及其影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45182786/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com