gpt4 book ai didi

cluster-computing - 从节点提交作业时 qsub 返回错误

转载 作者:行者123 更新时间:2023-12-04 08:58:06 24 4
gpt4 key购买 nike

我有一个复杂的 Fortran MPI 应用程序在 Torque/Maui 系统下运行。当我运行我的应用程序时,它会产生一个巨大的独特输出(~20 GB)。为避免这种情况,我制作了一个 RunJob 脚本,将运行分成 5 个部分,每个部分产生更小的输出,更容易处理。

目前,我的 RunJob 脚本在第一段结束时正确停止,并产生正确的输出。但是,当它尝试重新启动时,我收到以下错误消息:

qsub: Bad UID for job execution MSG=ruserok failed validating username/username from compute-0-0.local

我知道这个问题是因为默认情况下 Torque/Maui 系统不允许节点提交作业。

事实上,当我输入这个时:

qmgr -c 'l s' | grep allow_node_submit

我得到了:

allow_node_submit = False

我没有管理员帐号只有一个用户帐号

我的问题是:

  1. 是否可以在作为用户的 gmgr 上设置 allow_node_submit = true?如何 ? (- 我猜不是)
  2. 如果问题 1 = false,是否有其他方法可以解决此问题?如何 ?

祝一切顺利

最佳答案

不可以,非特权用户不能更改排队系统的设置。不允许从计算节点重新提交的常见原因是一个很好的原因——保护集群及其所有用户免受意外(或其他)提交脚本的影响,该脚本很快失败并重新提交一次——或者更糟糕的是,不止一次 - 快速充斥调度程序和队列,生成相当于 fork bomb 的批处理队列.即使有这样的限制,我们仍然有人由于脚本错误而意外地一次提交数万个工作。

通常的解决方法是通过 ssh 连接到其中一个队列提交节点并从那里提交脚本,例如在提交脚本的末尾:

ssh queue-head-node qsub /path/to/new/submission/script

这就是我们建议用户处理它的方式,例如here .这显然只有在集群中启用了无密码/密码短语的 ssh 时才有效,这是一种常见(但不普遍)的做法。

或者,如果这是针对自动提交一系列继续运行的作业的常见情况,您可以查看您的站点如何处理作业依赖性,并提交一组作业,每个作业都依赖于最后一个成功完成,然后按顺序运行。

关于cluster-computing - 从节点提交作业时 qsub 返回错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25574657/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com