gpt4 book ai didi

hadoop - hdfs moveFromLocal 不会跨数据节点分发副本 block

转载 作者:行者123 更新时间:2023-12-02 18:08:04 25 4
gpt4 key购买 nike

我最近将 Cloudera 环境从 5.8.x(hadoop 2.6.0,hdfs-1)升级到 6.3.x(hadoop 3.0.0,hdfs-1),并且在使用 moveFromLocal 加载了几天的数据之后,我刚刚意识到 DFS 已用% 我在其上执行的 datanode 服务器 moveFromLocal是其他人的 3 倍。

然后运行 ​​fsck-blocks , -locations-replicaDetails在我加载数据的 hdfs 路径上标记;我观察到复制块 (RF=2) 是 全部 在同一台服务器上并且不会分发到其他节点,除非我手动运行 hdfs balancer .

一个月前问了一个相关的问题,
hdfs put/moveFromLocal not distributing data across data nodes? ,它并没有真正回答任何问题;我不断加载的文件是 Parquet 文件。

Cloudera 5.8.x 没有这个问题。我应该在 Cloudera 6.3.x 中进行一些与复制、机架感知等相关的新配置吗?

任何帮助将不胜感激。

最佳答案

根据HDFS Architecture doc,“对于常见情况,当复制因子为 3 时,如果写入者在数据节点上,HDFS 的放置策略是将一个副本放在本地机器上......”

根据同一份文档,“因为 NameNode 不允许 DataNode 拥有同一块 的多个副本,因此创建的最大副本数是当时 DataNode 的总数。”

关于hadoop - hdfs moveFromLocal 不会跨数据节点分发副本 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59627351/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com