gpt4 book ai didi

linux - SLURM:分配所有 GPU 后,无法提交更多 CPU 作业

转载 作者:太空狗 更新时间:2023-10-29 12:27:08 24 4
gpt4 key购买 nike

我们刚刚开始使用 slurm 来管理我们的 GPU(目前只有 2 个)。我们使用 ubuntu 14.04 和 slurm-llnl。我已经配置了 gres.conf 和 srun 工作。问题是,如果我使用 --gres=gpu:1 运行两个作业,那么两个 GPU 会成功分配并且作业开始运行;现在我希望能够在没有 --gres=gpu:1 的情况下运行更多的作业(除了 2 个 GPU 作业之外)(即作业而不是仅使用 CPU 和 ram),但这是不可能的。

错误消息说它无法分配所需的资源(即使有 24 个 CPU 核心)。

这是我的 gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

我很感激任何帮助。谢谢。

最佳答案

确保配置中的SelectTypeCR_CPUCR_Core 并且分区的shared 选项未设置为 exclusive。否则,Slurm 会将完整节点分配给作业。

关于linux - SLURM:分配所有 GPU 后,无法提交更多 CPU 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37093705/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com