gpt4 book ai didi

cluster-computing - 如何在slurm集群管理器中了解一个作业的每个进程的状态?

转载 作者:行者123 更新时间:2023-12-02 20:23:22 25 4
gpt4 key购买 nike

使用Slurm后集群管理器将一个作业与多个进程分批,有没有办法知道每个进程的状态(运行或完成)?可以用python脚本实现吗?

最佳答案

只需使用命令 sacct Slurm 附带。

鉴于此代码(my.sh):

#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks=2

srun -n1 sleep 10 &
srun -n1 sleep 3

wait

我运行它:

sbatch my.sh

然后用sacct检查它:

sacct

这给了我每一步的信息:

     JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
---------- ---------- ---------- ---------- ---------- ---------- --------
8021 my.sbatch CLUSTER me 2 RUNNING 0:0
8021.0 sleep me 1 RUNNING 0:0
8021.1 sleep me 1 COMPLETED 0:0

sacct 有很多选项可以自定义其输出。例如,

sacct --format='JobID%6,State'

只会为您提供 ID(最多 6 个字符)和作业的当前状态:

 JobID      State
------ ----------
8021 RUNNING
8021.0 RUNNING
8021.1 COMPLETED

关于cluster-computing - 如何在slurm集群管理器中了解一个作业的每个进程的状态?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50677026/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com