gpt4 book ai didi

linux - SLURM 中的工作状态

转载 作者:太空狗 更新时间:2023-10-29 12:04:39 24 4
gpt4 key购买 nike

我想查看我最近在集群上运行的所有作业(已完成、失败和正在运行)。我还想看到每个作业 1 个条目。执行 sacct 会为每个作业重新运行 3 行,其中 State: FAILED, FAILED, COMPLETED。这是什么意思,我该如何查看我想看到的实际信息?

我也不明白 trueJobName 是什么意思。

这是输出的副本:

   JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
------------ ---------- ---------- ---------- ---------- ---------- --------
2160852 R interact cluster_u+ 2 COMPLETED 0:0
2160864 R interact cluster_u+ 2 COMPLETED 0:0
2161424 R interact cluster_u+ 2 COMPLETED 0:0
2161430 R interact cluster_u+ 0 CANCELLED+ 0:0
2161431 R interact cluster_u+ 2 COMPLETED 0:0
2161668 R interact cluster_u+ 2 COMPLETED 0:9
2161682 myjob+ general cluster_u+ 2 FAILED 1:0
2161682.bat+ batch cluster_u+ 1 FAILED 1:0
2161682.0 true cluster_u+ 1 COMPLETED 0:0
2161683 myjob+ general cluster_u+ 2 FAILED 1:0
2161683.bat+ batch cluster_u+ 1 FAILED 1:0
2161683.0 true cluster_u+ 1 COMPLETED 0:0

提交脚本(注意 <% %> 中的值由 R 中的包 BatchJobs 处理):

 #!/bin/bash
#SBATCH -J <%= job.name %> # name of the job
#SBATCH -p general
#SBATCH --mem <%= resources$memory %> # Memory requirements in Kbytes
#SBATCH -o ./logs/<%= job.name %>_log.txt # Memory requirements in Kbytes


eval "R --vanilla --slave < <%= rscript %>"

最佳答案

sacct 将为每个作业打印一行,然后在该作业中的每个作业步骤打印一行。

 2161683          myjob+    general cluster_u+          2     FAILED      1:0  <- the job
2161683.bat+ batch cluster_u+ 1 FAILED 1:0 <- the batch script
2161683.0 true cluster_u+ 1 COMPLETED 0:0 <- the R step

作业的状态为失败,因为脚本本身的状态为失败。您的脚本中有一个作业步骤,并且它正确终止。

我经常使用 sacct |grep -v "^[0-9]*\." 来获取工作信息。

关于linux - SLURM 中的工作状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19327275/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com