gpt4 book ai didi

hadoop - hdfs 如何删除过度复制的 block

转载 作者:可可西里 更新时间:2023-11-01 15:05:23 26 4
gpt4 key购买 nike

例如,我使用复制因子 2 将文件写入 HDFS。我正在写入的节点现在拥有文件的所有 block 。文件所有 block 的其他副本分散在集群中所有剩余的节点周围。这是默认的 HDFS 策略。如果我将文件的复制因子降低到 1,到底会发生什么?HDFS 如何决定从哪些节点删除哪些 block ?我希望它尝试从文件 block 数最多的节点中删除 block ?

为什么我要问 - 如果是这样,那将是有道理的 - 它会减轻文件的处理。因为如果所有 block 只有一个副本,并且所有 block 都位于同一节点上,那么由于数据传输到集群中的其他节点,使用 map-reduce 处理文件会更加困难。

最佳答案

当一个 block 变得过度复制时,名称节点选择一个副本来删除。 name node 不希望减少承载副本的机架数量,其次更愿意从可用磁盘空间最少的 data node 中删除副本。这可能有助于重新平衡集群上的负载。

来源:The Architecture of Open Source Applications

关于hadoop - hdfs 如何删除过度复制的 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31047009/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com