gpt4 book ai didi

hadoop 管道写入和 Rack 感知

转载 作者:行者123 更新时间:2023-12-02 21:47:56 27 4
gpt4 key购买 nike

当每个文件写入集群时,HDFS 会创建一个复制管道。假设有两个 Rack 1 和 5。根据 Rack 感知,第一个 block 将被保存到 Rack 1,其他两个复制 block 将被插入 Rack 5。

我很困惑为什么hadoop管道会将第二个和第三个复制 block 存储在同一个 Rack (5)中,而不是将第一个和第二个 block 存储在同一个 Rack (1)中?两种情况都具有相同的网络流量。它有什么好处?

谢谢。

请引用此图http://bradhedlund.s3.amazonaws.com/2011/hadoop-network-intro/HDFS-Pipleline-Write-s.png

最佳答案

这适用于 HDFS 1.2 将两个 block 都放在远程 Rack 上的原因是为了尽量减少 Rack 间的流量。由于第二个 block 已经在远程 Rack 上,因此在远程 Rack 上的两个服务器之间复制该 block 不会消耗 Rack 之间链路的带宽。如果采用高效设计的架顶式交换机这会将带宽利用率降至最低。在繁忙的集群上,两个 Rack 上都会发生相同的过程。其中 Rack A 和 Rack B 将以大致相同的速率生成 block 。因此,遵循此策略有助于平衡所有链路的带宽利用率。

关于hadoop 管道写入和 Rack 感知,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23581749/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com