gpt4 book ai didi

hadoop - 为什么在HDFS中包含多个机架的写入会非常昂贵?

转载 作者:行者123 更新时间:2023-12-02 20:09:07 25 4
gpt4 key购买 nike

该内容存在于HDFS documentation上。我不明白最后一行的原因。根据我的说法,如果有更多的机架,我们可以在每个机架上并行写入。这将减少总的写入时间。甚至它说,由于我们需要将数据传输到多个机架,因此写入成本也会增加。但是无论如何,我们都将数据传输到机架。

请解释我哪里错了?

http://hadoop.apache.org/docs/stable/hdfs_design.html

The NameNode determines the rack id each DataNode belongs to via the process outlined in Hadoop Rack Awareness. A simple but non-optimal policy is to place replicas on unique racks. This prevents losing data when an entire rack fails and allows use of bandwidth from multiple racks when reading data. This policy evenly distributes replicas in the cluster which makes it easy to balance load on component failure. However, this policy increases the cost of writes because a write needs to transfer blocks to multiple racks.

最佳答案

您加粗的语句旨在传达网络跃点的成本。有一个隐含的假设,即每个机柜的顶部都有一个机架式交换机,专门为该机架中的服务器提供连接。

如果要采用将每个副本放置到唯一机架的“简单”策略,那么您将为此方案中的每个块调用一个2跳以上的网络副本。与一个本地机架副本和另一个机架外副本的推荐策略相比,这是“非最佳”的,在该策略中,只有一个2+跳副本和一个1跳副本。

同样,此建议仅在位于机架交换顶部的网络拓扑中成立。如果要使用其他更平坦的网络拓扑,则将是无关紧要的。

关于hadoop - 为什么在HDFS中包含多个机架的写入会非常昂贵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18908629/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com