gpt4 book ai didi

cluster-computing - Slurm:失败的作业将被 --requeue 多少次

转载 作者:行者123 更新时间:2023-12-05 04:05:11 24 4
gpt4 key购买 nike

我有一个 Slurm 作业数组,作业文件包含一个 --requeue 指令。这是完整的作业文件:

#!/bin/bash
#SBATCH --job-name=catsss
#SBATCH --output=logs/cats.log
#SBATCH --array=1-10000
#SBATCH --requeue
#SBATCH --partition=scavenge
#SBATCH --mem=32g
#SBATCH --time=24:00:00
#SBATCH --mail-type=FAIL
#SBATCH --mail-user=douglas.duhaime@gmail.com
module load Langs/Python/3.4.3
python3 cats.py ${SLURM_ARRAY_TASK_ID} 'cats'

几个数组值至少重新启动了一次。我想知道,这些作业在最终被调度程序取消之前会重新启动多少次?重新启动是否会无限期地进行,直到系统管理员手动取消它们,或者像这样的作业是否有最大重试次数?

最佳答案

据我所知,工作可以在无数次重新排队。您只需决定作业是否准备好重新排队。如果不是重新排队,那么它永远不会被重新排队。如果重新排队,那么每次系统决定需要它时都会重新排队(节点故障,更高优先级的作业抢占......)。

作业不断重新启动,直到完成(成功或不成功,但完成而不是中断)。

关于cluster-computing - Slurm:失败的作业将被 --requeue 多少次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51450878/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com