cluster-computing - 从节点提交作业时 qsub 返回错误-6ren

cluster-computing - 从节点提交作业时 qsub 返回错误

转载作者：行者123 更新时间：2023-12-04 08:58:06

24

4

我有一个复杂的 Fortran MPI 应用程序在 Torque/Maui 系统下运行。当我运行我的应用程序时，它会产生一个巨大的独特输出(~20 GB)。为避免这种情况，我制作了一个 RunJob 脚本，将运行分成 5 个部分，每个部分产生更小的输出，更容易处理。

目前，我的 RunJob 脚本在第一段结束时正确停止，并产生正确的输出。但是，当它尝试重新启动时，我收到以下错误消息:

qsub: Bad UID for job execution MSG=ruserok failed validating username/username from compute-0-0.local

我知道这个问题是因为默认情况下 Torque/Maui 系统不允许节点提交作业。

事实上，当我输入这个时:

qmgr -c 'l s' | grep allow_node_submit

我得到了:

allow_node_submit = False

我没有管理员帐号只有一个用户帐号

我的问题是:

是否可以在作为用户的 gmgr 上设置 allow_node_submit = true？如何？ (- 我猜不是)
如果问题 1 = false，是否有其他方法可以解决此问题？如何？

祝一切顺利

最佳答案

不可以，非特权用户不能更改排队系统的设置。不允许从计算节点重新提交的常见原因是一个很好的原因——保护集群及其所有用户免受意外(或其他)提交脚本的影响，该脚本很快失败并重新提交一次——或者更糟糕的是，不止一次 - 快速充斥调度程序和队列，生成相当于 fork bomb 的批处理队列.即使有这样的限制，我们仍然有人由于脚本错误而意外地一次提交数万个工作。

通常的解决方法是通过 ssh 连接到其中一个队列提交节点并从那里提交脚本，例如在提交脚本的末尾:

ssh queue-head-node qsub /path/to/new/submission/script

这就是我们建议用户处理它的方式，例如here .这显然只有在集群中启用了无密码/密码短语的 ssh 时才有效，这是一种常见(但不普遍)的做法。

或者，如果这是针对自动提交一系列继续运行的作业的常见情况，您可以查看您的站点如何处理作业依赖性，并提交一组作业，每个作业都依赖于最后一个成功完成，然后按顺序运行。

关于cluster-computing - 从节点提交作业时 qsub 返回错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25574657/

24

4

0

文章推荐： twitter-bootstrap - Twitter Bootstrap 模态不会褪色

文章推荐： internet-explorer - IE9、IE8、SVG、VML 和文档类型

qsub - 等待一组 qsub 作业完成
我有一个批处理脚本，它从几个 qsub 作业开始，我想在它们全部完成时进行捕获。我不想使用 -sync 选项，因为我希望它们同时运行。每个作业都有一组不同的命令行参数。我希望我的脚本等到所有工作都
speech-recognition - Kaldi:qsub 的输出是:qsub: illegal -c value ""when trying to run the Common Voice recipe
我正在尝试在我的计算机上(即不在集群上)运行 Kaldi 的 Common Voice 配方 ( kaldi/egs/commonvoice/s5/run.sh )。它崩溃并显示错误消息 Output
pbs - qsub 是否将命令行参数传递给我的脚本？
当我使用提交作业时 qsub script.sh $@ 是否在 script.sh 中设置为某个值？也就是说，是否有任何命令行参数传递给 script.sh？最佳答案您可以使用 qsub 的 -
python - Qsub 作业使用集群上工作节点的子进程
我正在尝试使用 qsub 提交一个 python 作业，该作业又使用 subprocess 和 qsub 提交其他几个作业。我使用如下所示的 2 个 bash 脚本提交这些作业。 run_test是
bash - QSUB:为作业数组中的每个任务指定输出和错误文件
希望这不是重复的，也不仅仅是我们集群配置的问题...... 我正在使用 qsub 和以下命令将作业数组提交到集群: qsub -q QUEUE -N JOBNAME -t 1:10 -e ${ERRF
linux - qsub 数组作业延迟
#!/bin/bash #PBS -S /bin/bash #PBS -N garunsmodel #PBS -l mem=2g #PBS -l walltime=1:00:00 #PBS -t 1-
java - Qsub 与作业脚本与输入
我正在尝试将 Java 代码作为作业提交给 qsub。命令去 qsub -N job_$var -S /usr/bin/java -cp "classpath" file.java qsub 假定 -
linux - qsub 中的别名命令
qusb 的 -V 选项只导入环境变量而不是 .bashrc 的别名。例如 ### in .bashrc alias ll='ls -ltr' alias la='ls -A' export PYTH
cluster-computing - qsub 集群上的作业后检查实时输出
这是我的 pbs 文件: #!/bin/bash #PBS -N myJob #PBS -j oe #PBS -k o #PBS -V #PBS -l nodes=hpg6-15:ppn=12 cd
matlab 分布式计算与 sge(qsub)
最近，我可以在集群上运行我的代码。我的代码是完全可并行化的，但我不知道如何最好地利用它的并行特性。我必须计算一个大矩阵的元素，它们中的每一个都独立于其他矩阵。我想提交作业以在多台机器(如 100 台)
hpc - 同时执行多个 qsub 命令
我正在使用我部门的计算集群和 Sun Grid Engine。当我必须运行多个 R 作业时，我通常编写名称为 s01.sh、s02.sh、...、s50.sh 的 shell 脚本文件，其中包含“R
qsub - 什么是 'Gbytes seconds'？
从qstat(Sun Grid Engine)联机帮助页中: mem: The current accumulated memory usage of the job in Gbytes second
python - qsub python 导入
我是第一次在集群上运行作业。我使用以下命令运行它: qsub -cwd -S /usr/bin/python myScript.py 我有一个以以下开头的 python 脚本: import time
hpc - 同时执行多个 qsub 命令
我正在使用我部门的计算集群和 Sun Grid Engine。当我必须运行多个 R 作业时，我通常编写名称为 s01.sh、s02.sh、...、s50.sh 的 shell 脚本文件，其中包含“R
java - 如何检查 qsub 作业的命运
我在扭矩集群上运行了一个 qsub 作业(.jar 文件)并看到它完成了。但是输出不是预期的。我如何查看此 .jar 文件抛出的任何错误消息(我会通过终端在本地查看它们 - 我想查看此类消息以诊断问题
bash - 当 qsub 在服务器上提交的作业完成时在我的本地计算机上运行脚本
我正在通过 qsub 将作业提交到服务器，然后想在作业完成后在本地机器上分析结果。虽然我可以找到一种方法在服务器上提交分析作业，但不知道如何在我的本地计算机上运行该脚本。 jobID=$(qsub j
bash - 立即发现并非所有环境变量都已在 qsub 命令行上定义
我正在使用 qsub 提交 pbs 作业。我的作业文件需要定义 5 个环境变量:qsub -v A=foo,B=bar,C=cat,D=dog,E=qux jobfile.sh。有时，我可能会在提交时
java - 如何将显示传递给 qsub 命令？
我正在运行一个 bash 脚本，除其他外，它还运行一个可以通过 GUI 或命令行(取决于参数)使用的 java 程序。 splitstree --commandLineMode --commandFi
python - 在没有实际作业文件的情况下提交 qsub 作业的语法？
我想在不创建离散作业文件的情况下即时提交 qsub 作业。所以，假设我有一个名为“get_time.py”的 python 脚本，它只报告时间。而不是像这样制作提交脚本: cat>job.sub<
linux - 执行 qsub 获取脚本返回值
我执行命令: qsub ./try.sh 脚本 try.sh 返回 1 但是如果我尝试执行 "$?"来获取最后的返回码，它会给我 0 - qsub 命令的返回码。如何获取脚本的返回值？谢谢! 最佳

首页

博学

6Ren·AI

商城

cluster-computing - 从节点提交作业时 qsub 返回错误