gpt4 book ai didi

jobs - 如何从 SGE 获取失败的作业列表

转载 作者:行者123 更新时间:2023-12-02 17:44:43 24 4
gpt4 key购买 nike

如何从 SGE 获取(最近)失败的作业列表(failed=100 或 exit_status=137)?来自 qacct 帮助:

[-j [job_id|job_name|pattern]]    list all [matching] jobs

如何使用该模式?我尝试了以下,不起作用。

qacct  -j failed=100

最佳答案

“模式”在这种情况下指的是一个简单的通配表达式来匹配一个工作名称,例如qacct -j 'myjob*'

不幸的是,

qacct 没有您正在寻找的过滤功能 - 可以过滤复杂的作业属性,但不能过滤基本属性,例如 exit_status失败

只需一点点工作,您就可以从 SGE 会计文件(假设您有权访问它)中检索该信息。当 SGE 完成一项工作时,它会向 $SGE_ROOT/$SGE_CELL/common/accounting 写入一个简单的记录 - 这是 qacct 读取的文件。您需要查看 qmaster 上的 accounting(5) 手册页以了解特定于您的 GridEngine 版本的详细信息,但是您的会计文件中的作业记录应该大致如下所示:

all.q:myexechost:group:user:myjobstep16:1126971:sge:0:1369755166:1369768897:1369769771:0:0:874:796.564903:30.676336:15788.000000:0:0:0:0:17009:2:0:47987400.000000:34033048:0:0:0:9468:27604:NONE:defaultdepartment:NONE:1:0:827.241239:96.445328:39.111400:-q all.q:0.000000:NONE:237133824.000000:0:0

在此特定记录中,failed 和 exit_status 分别是第 12 个和第 13 个字段。对于快速而肮脏的“最近失败”列表,我们可以将它们与字段 6(作业 ID)和 11(作业结束时间)一起使用,以显示最近 100 个作业中的任何失败:

$ cut -d':' -f6,11,12,13 $SGE_ROOT/$SGE_CELL/common/accounting|sort -t':' -k2|tail -100|grep ':100:137'

关于jobs - 如何从 SGE 获取失败的作业列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16570895/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com