- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
大家好,
我的问题很具体。
一个多星期以来,我一直在尝试使用 sbatch 和 srun 提交数千个单线程作业以进行科学实验。
问题是这些作业可能需要不同的时间才能完成,有些作业甚至可能会因为超出内存限制而中止。这两种行为都很好,我的评估处理了它。
但是,我面临着一些作业从未开始的问题,即使它们已经提交。
我的 sbatch 脚本如下所示:
#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000
for i in {1..500}
do
srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &
wait 5s
done
现在,我的错误日志显示以下消息:
srun: Job 1846955 step creation temporarily disabled, retrying
1) “步骤创建暂时禁用”是什么意思?是所有 cpu 都忙并且作业被省略了还是稍后资源空闲时又开始了?
2) 为什么我的一些工作没有执行,我该如何解决?我是否为 srun 使用了正确的参数?
感谢您的帮助!
最佳答案
srun: Job 1846955 step creation temporarily disabled, retrying
这很正常,您保留了 4 x 12 个 CPU 并启动了 500 个 srun
实例。只有 48 个实例将运行,而另一个将输出该消息。每当一个正在运行的实例停止时,一个挂起的实例就会启动。
wait 5s
wait
命令用于等待进程,而不是等待一定的时间。为此,请使用 sleep
命令。 wait
命令必须位于脚本的末尾。否则,作业可能会在所有 srun
实例完成之前停止。
所以脚本应该是这样的:
#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000
for i in {1..500}
do
srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &
done
wait
关于shell - sbatch+srun : Large amount of single thread jobs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59896660/
我正在使用 srun 来运行我的程序,但是它无法打印输出。 me@home:~$ srun -p K80q --gres=gpu:1 -N 1 python3 main.py 2019-05-15 1
这个问题很容易用例子来解释。我正在运行一个 myscript.py 虚拟 Python-MPI 脚本,其内容就在下面两行。 from subprocess import call call(['whi
我有一段代码通常在 SLURM 下运行。有点像 if ! lengthy_command then echo "Error occured" fi 出于会计目的,我想转移到基于 srun 的命
我想在大量不同的输入文件上运行相同的程序。我可以将每个作为单独的 Slurm 提交提交,但我不想通过一次在队列上倾倒 1000 个作业来淹没队列。我一直在试图弄清楚如何通过先创建分配来处理相同数量的文
抱歉,这个问题需要大量积累,但总而言之,是关于srun ... >output_file的许多并行实例的条件。将或不会导致某些流程/任务对其他流程/任务产生的输出的破坏。 案例 0:仅 bash(无
当处于 RUNNING 状态时,我需要区分批处理作业和交互式作业。我无法通过 sact 或 stat 找到了解作业是否为交互式 session 的方法。 有没有人解决过类似的问题? 最佳答案 您可以在
在 blog post by Pierre Lindenbaum 中, srun 在 Makefile 中被调用以运行作业。我依靠这种技术,但它根本不使用 sbatch,所以我错过了设置类似 sbat
如果在下面将“mpirun”替换为“srun”,我的 mpi+openmp 作业运行速度会慢 3 倍! #!bin/bash # #SBATCH --job-name=locstack4d_mpi #
我试图了解 SLURM 的 srun 之间有什么区别和 sbatch命令。我会很高兴得到一般性的解释,而不是对以下问题的具体答案,但这里有一些具体的混淆点,可以作为一个起点,并让我了解我正在寻找什么。
Slurm上以下两种并行化方案有什么区别? 方案一 运行 sbatch script.sh #!/bin/bash #SBATCH --ntasks=8 ## more options srun ec
我必须运行 300 个相同模型的作业(黑匣子)。然而,有时模型内部会出现段错误并显示以下错误消息: srun: error: nodexyz: task 0: Segmentation fault 集
我正在使用由 slurm 管理的集群来运行一些 yarn/hadoop 基准测试。为此,我在 slurm 分配的节点上启动 hadoop 服务器,然后在其上运行基准测试。我意识到这不是运行生产 had
大家好, 我的问题很具体。 一个多星期以来,我一直在尝试使用 sbatch 和 srun 提交数千个单线程作业以进行科学实验。 问题是这些作业可能需要不同的时间才能完成,有些作业甚至可能会因为超出内存
在Slurm中运行以下命令: $ srun -J FRD_gpu --partition=gpu --gres=gpu:1 --time=0-02:59:00 --mem=2000 --ntasks=
我试图在后台运行 srun 的 slurm 作业。不幸的是,现在由于我必须通过 docker 运行东西,使用 sbatch 有点烦人,所以我试图找出是否可以一起避免它。 根据我的观察,每当我运行 sr
我无法让我的 twittercontainer 坐在 srun 和 mentor 的右边,我似乎无法改变 twittercontainer 的高度请帮助。我只需要了解如何在一列中获得基本上是两个 di
我是一名优秀的程序员,十分优秀!