gpt4 book ai didi

hadoop - 跨多个数据中心分布数据节点

转载 作者:可可西里 更新时间:2023-11-01 14:15:13 24 4
gpt4 key购买 nike

有没有人试过跨多个数据中心测试数据节点的性能?特别是在带有小管道的网络上。我似乎找不到太多关于它的信息,而且我发现的信息要么是旧的(大约 2010 年)要么是专有的(似乎 DataStax 有一些东西)。我知道 Hadoop 支持机架感知,但就像我说的那样,我还没有看到任何关于为多个数据中心调整系统的文档。

最佳答案

我已经用一个 12 x DataNode 集群进行了尝试,该集群以 2:1 的比例分布在相距大约 120 英里的两个数据中心之间。跨 2 个 1GbE 管道的数据中心之间的延迟约为 4 毫秒。

站点 A 配置了 2 个机架,站点 B 配置了 1 个机架。每个“机架”中有 4 台机器。我们基本上是将站点 B 作为“灾难恢复”站点进行测试。复制因子设置为 3。

长话短说,它有效,但性能真的非常糟糕。您肯定必须对您的源、映射和减少输出使用压缩以缩小您的写入 I/O,如果站点之间的链接用于其他任何事情,您将在传输数据时遇到超时。 TCP 窗口将有效地将我们的传输限制在 4MBps 左右,而不是 1GbE 线路上的潜在 100MBps+。

让自己省心,只需使用 distcp 作业来复制数据!

关于hadoop - 跨多个数据中心分布数据节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14820571/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com