- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个复杂的 Fortran MPI 应用程序在 Torque/Maui 系统下运行。当我运行我的应用程序时,它会产生一个巨大的独特输出(~20 GB)。为避免这种情况,我制作了一个 RunJob 脚本,将运行分成 5 个部分,每个部分产生更小的输出,更容易处理。
目前,我的 RunJob 脚本在第一段结束时正确停止,并产生正确的输出。但是,当它尝试重新启动时,我收到以下错误消息:
qsub: Bad UID for job execution MSG=ruserok failed validating username/username from compute-0-0.local
我知道这个问题是因为默认情况下 Torque/Maui 系统不允许节点提交作业。
事实上,当我输入这个时:
qmgr -c 'l s' | grep allow_node_submit
我得到了:
allow_node_submit = False
我没有管理员帐号只有一个用户帐号
我的问题是:
祝一切顺利
最佳答案
不可以,非特权用户不能更改排队系统的设置。不允许从计算节点重新提交的常见原因是一个很好的原因——保护集群及其所有用户免受意外(或其他)提交脚本的影响,该脚本很快失败并重新提交一次——或者更糟糕的是,不止一次 - 快速充斥调度程序和队列,生成相当于 fork bomb 的批处理队列.即使有这样的限制,我们仍然有人由于脚本错误而意外地一次提交数万个工作。
通常的解决方法是通过 ssh 连接到其中一个队列提交节点并从那里提交脚本,例如在提交脚本的末尾:
ssh queue-head-node qsub /path/to/new/submission/script
这就是我们建议用户处理它的方式,例如here .这显然只有在集群中启用了无密码/密码短语的 ssh 时才有效,这是一种常见(但不普遍)的做法。
或者,如果这是针对自动提交一系列继续运行的作业的常见情况,您可以查看您的站点如何处理作业依赖性,并提交一组作业,每个作业都依赖于最后一个成功完成,然后按顺序运行。
关于cluster-computing - 从节点提交作业时 qsub 返回错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25574657/
我有一个批处理脚本,它从几个 qsub 作业开始,我想在它们全部完成时进行捕获。 我不想使用 -sync 选项,因为我希望它们同时运行。每个作业都有一组不同的命令行参数。 我希望我的脚本等到所有工作都
我正在尝试在我的计算机上(即不在集群上)运行 Kaldi 的 Common Voice 配方 ( kaldi/egs/commonvoice/s5/run.sh )。它崩溃并显示错误消息 Output
当我使用 提交作业时 qsub script.sh $@ 是否在 script.sh 中设置为某个值?也就是说,是否有任何命令行参数传递给 script.sh? 最佳答案 您可以使用 qsub 的 -
我正在尝试使用 qsub 提交一个 python 作业,该作业又使用 subprocess 和 qsub 提交其他几个作业。 我使用如下所示的 2 个 bash 脚本提交这些作业。 run_test是
希望这不是重复的,也不仅仅是我们集群配置的问题...... 我正在使用 qsub 和以下命令将作业数组提交到集群: qsub -q QUEUE -N JOBNAME -t 1:10 -e ${ERRF
#!/bin/bash #PBS -S /bin/bash #PBS -N garunsmodel #PBS -l mem=2g #PBS -l walltime=1:00:00 #PBS -t 1-
我正在尝试将 Java 代码作为作业提交给 qsub。命令去 qsub -N job_$var -S /usr/bin/java -cp "classpath" file.java qsub 假定 -
qusb 的 -V 选项只导入环境变量而不是 .bashrc 的别名。例如 ### in .bashrc alias ll='ls -ltr' alias la='ls -A' export PYTH
这是我的 pbs 文件: #!/bin/bash #PBS -N myJob #PBS -j oe #PBS -k o #PBS -V #PBS -l nodes=hpg6-15:ppn=12 cd
最近,我可以在集群上运行我的代码。我的代码是完全可并行化的,但我不知道如何最好地利用它的并行特性。我必须计算一个大矩阵的元素,它们中的每一个都独立于其他矩阵。我想提交作业以在多台机器(如 100 台)
我正在使用我部门的计算集群和 Sun Grid Engine。 当我必须运行多个 R 作业时,我通常编写名称为 s01.sh、s02.sh、...、s50.sh 的 shell 脚本文件,其中包含“R
从qstat(Sun Grid Engine)联机帮助页中: mem: The current accumulated memory usage of the job in Gbytes second
我是第一次在集群上运行作业。我使用以下命令运行它: qsub -cwd -S /usr/bin/python myScript.py 我有一个以以下开头的 python 脚本: import time
我正在使用我部门的计算集群和 Sun Grid Engine。 当我必须运行多个 R 作业时,我通常编写名称为 s01.sh、s02.sh、...、s50.sh 的 shell 脚本文件,其中包含“R
我在扭矩集群上运行了一个 qsub 作业(.jar 文件)并看到它完成了。但是输出不是预期的。我如何查看此 .jar 文件抛出的任何错误消息(我会通过终端在本地查看它们 - 我想查看此类消息以诊断问题
我正在通过 qsub 将作业提交到服务器,然后想在作业完成后在本地机器上分析结果。虽然我可以找到一种方法在服务器上提交分析作业,但不知道如何在我的本地计算机上运行该脚本。 jobID=$(qsub j
我正在使用 qsub 提交 pbs 作业。我的作业文件需要定义 5 个环境变量:qsub -v A=foo,B=bar,C=cat,D=dog,E=qux jobfile.sh。有时,我可能会在提交时
我正在运行一个 bash 脚本,除其他外,它还运行一个可以通过 GUI 或命令行(取决于参数)使用的 java 程序。 splitstree --commandLineMode --commandFi
我想在不创建离散作业文件的情况下即时提交 qsub 作业。所以,假设我有一个名为“get_time.py”的 python 脚本,它只报告时间。而不是像这样制作提交脚本: cat>job.sub<
我执行命令: qsub ./try.sh 脚本 try.sh 返回 1 但是如果我尝试执行 "$?"来获取最后的返回码,它会给我 0 - qsub 命令的返回码。 如何获取脚本的返回值? 谢谢! 最佳
我是一名优秀的程序员,十分优秀!