gpt4 book ai didi

slurm - 如果作业失败,我如何自动重新排队 SLURM 的 srun 作业?

转载 作者:行者123 更新时间:2023-12-01 06:20:26 24 4
gpt4 key购买 nike

我必须运行 300 个相同模型的作业(黑匣子)。然而,有时模型内部会出现段错误并显示以下错误消息:

srun: error: nodexyz: task 0: Segmentation fault

集群使用 SLURM 作为资源管理器,如果它失败,我想自动重新排队这项工作。

最佳答案

尝试添加 || scontrol requeue $SLURM_JOB_IDsrun命令,以便如果它失败并返回非零输出代码,作业将重新排队并重新安排。您可以使用 $SLURM_RESTART_COUNT 跟踪重新启动的次数。 .

关于slurm - 如果作业失败,我如何自动重新排队 SLURM 的 srun 作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42764886/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com