gpt4 book ai didi

hadoop - HDFS上存储的文件不平衡的可能原因是什么?

转载 作者:可可西里 更新时间:2023-11-01 14:28:45 25 4
gpt4 key购买 nike

有时,数据 block 以不平衡的方式存储在数据节点上。基于 HDFS block 放置策略,第一个副本倾向于存储在写入节点(即客户端节点)上,然后第二个副本存储在远程机架上,第三个副本存储在本地机架上。在此放置策略下,哪些用例会导致数据 block 在数据节点之间不平衡?一个可能的原因是,如果写入节点很少,那么数据 block 的一个副本将存储在这些节点上。还有其他原因吗?

最佳答案

以下是数据倾斜的一些潜在原因:

  • 如果某些 DataNode 在一段时间内不可用(不接受请求/写入),集群最终可能会失去平衡。
  • TaskTrackers 没有与 DataNodes 在集群节点上均匀分布。如果我们在这种情况下通过 MapReduce 写入数据,集群可能会不平衡,因为同时托管 TaskTracker 和 DataNode 的节点将是首选。
  • 同上,但使用 HBase 的 RegionServers。
  • 大量删除数据可能会导致集群不平衡,具体取决于删除 block 的位置。
  • 添加新的 DataNode 不会自动重新平衡集群中的现有 block 。

“hdfs balancer”命令允许管理员重新平衡集群。另外,https://issues.apache.org/jira/browse/HDFS-1804添加了一个新的 block 存储策略,该策略考虑了卷上剩余的可用空间。

关于hadoop - HDFS上存储的文件不平衡的可能原因是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27475286/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com