gpt4 book ai didi

slurm - SLURM:如何仅在特定节点上运行30个作业?

转载 作者:行者123 更新时间:2023-12-04 10:48:04 33 4
gpt4 key购买 nike

例如,您需要运行30个srun作业,但要确保每个作业都在特定节点列表中的一个节点上运行(具有相同的性能,以公平地比较时序)。
你会怎么做?

我试过的


srun --nodelist=machineN[0-3] <some_cmd>:在所有节点上同时运行<some_cmd>(我需要:在列表中的可用节点之一上运行<some_cmd>
srun -p partition似乎可以工作,但是需要一个完全包含machineN [0-3]的分区,但情况并非总是如此。


有想法吗?

最佳答案

您可以朝相反的方向使用--excludesbatch选项:

srun --exclude=machineN[4-XX] <some_cmd>


然后,slurm将仅考虑未在排除列表中列出的节点。如果列表又长又复杂,则可以将其保存在文件中。

另一个选项是检查Slurm配置是否包含“功能”

sinfo  --format "%20N %20f"


如果“功能”列显示每个节点具有的逗号分隔的功能列表(可能是CPU系列,网络连接类型等),则可以使用以下方法选择具有特定功能的节点的子集:

srun --constraint=<some_feature> <some_cmd>

关于slurm - SLURM:如何仅在特定节点上运行30个作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37480603/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com