gpt4 book ai didi

hadoop - 为所有节点在 hdfs 中复制数据是否更快?

转载 作者:行者123 更新时间:2023-12-02 21:37:08 24 4
gpt4 key购买 nike

如果我有 6 个数据节点,将复制转换为 6 是否会更快,以便所有数据都在我的所有节点上复制,以便集群可以拆分查询(例如在配置单元中)而无需移动数据?我相信,如果您有 3 个复制并将 300GB 文件放入 HDFS,它会将其拆分为 3 个数据节点,然后当需要将 6 个节点用于查询时,它必须将数据移动到数据不存在的其他 3 个节点,导致响应较慢.. 准确吗?

最佳答案

我理解你的意思,你在谈论数据局部性。一般来说,数据局部性可以减少运行时间,因为它可以节省网络阻塞传输的时间。但实际上,如果不开启“HDFS Short-Circuit Local Reads”(默认关闭,请访问here),MapTask也会通过TCP协议(protocol)读取 block ,即通过网络,甚至if block 和 MapTask 都在同一个节点上。

最近优化hadoop和HDFS,我们用SSD代替HDD磁盘,但是发现效果不好,时间也不短。因为磁盘不是瓶颈,网络负载不重。根据结果​​,我们断定cpu非常重。如果你想清楚的知道hadoop集群的情况,我建议你使用ganglia来监控集群,它可以帮助你分析你的集群瓶颈。请看here .

最后,hadoop 是一个非常庞大和复杂的系统,磁盘性能、cpu 性能、网络带宽、参数值等等,还有很多因素需要考虑。如果你想节省时间,你还有很多工作要做,而不仅仅是复制因素。

关于hadoop - 为所有节点在 hdfs 中复制数据是否更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31377430/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com