gpt4 book ai didi

hadoop - hdfs数据倾斜,为什么文件分布不均匀?

转载 作者:可可西里 更新时间:2023-11-01 16:41:11 28 4
gpt4 key购买 nike

我运行一个有 32 个从站的 HDFS。

每个 slave 大约有 300GB 的本地剩余磁盘空间(其余的不用于 HDFS。)

当我放置 32 * 100 GB 的文件时,这些文件只传送给了一些奴隶。由于磁盘空间不足,它使任务崩溃。

如何避免这个问题?

最佳答案

我不是管理员,但这是我看到您的问题时想到的第一件事。

Hadoop 是一个“拓扑感知”系统。请阅读它 here.

如果拓扑不正确,则使用默认复制 (3x) 的 HDFS 写入将按顺序写入(随机节点 --> 不同机架上的节点 --> 与第二个副本相同的机架,但不同节点)。

检查复制因子也是个好主意。希望这对您有所帮助!

关于hadoop - hdfs数据倾斜,为什么文件分布不均匀?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40878367/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com