gpt4 book ai didi

具有不同复制因子的集群之间的hadoop distcp

转载 作者:可可西里 更新时间:2023-11-01 15:09:49 25 4
gpt4 key购买 nike

作为一些背景,我们有 2 个集群,目前用于生产和开发。作为其中的一部分,我们正在将文件(使用 hadoop distcp -update)从生产集群复制到开发集群,这些文件是由实时进程生成的(即它也有效地作为 DR 集群)。

两个集群上的 Hadoop 版本相同:Hadoop 2.6.0-cdh5.12.1

然而,开发集群的存储容量只有实时集群的 65% 左右。为了解决这个问题,我们将默认复制因子设置为 3 用于实时,2 用于开发。

我注意到从实时复制到开发的文件的复制因子为 3。我读了一些书,认为这应该是它的行为方式,即使这不是我想要的它的行为。

我有两个问题:

  • 一些研究表明,-setrep 可用于复制后,但 -D dfs.replication=x 可用作复制命令的一部分。有没有人对这些选项有任何经验?
  • 有没有人曾经处理过这种情况并找到了不同的解决方案?

感谢您的帮助。

最佳答案

我已经做了一些测试并完成了以下操作:

  • 将 distcp 命令从 hadoop distcp -update $SOURCE $TARGET 更改为 hadoop distctp -D dfs.replication=2 -update $SOURCE $TARGET
  • 运行之前复制的文件,因此复制因子为 3,并使用 hdfs dfs -setrep -w 2 $TARGET 修改复制因子。

磁盘空间开始下降,所以我认为这是成功的。也许有一天我可以声称我知道我在做什么。

关于具有不同复制因子的集群之间的hadoop distcp,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47866794/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com