shell - sbatch+srun : Large amount of single thread jobs-6ren

shell - sbatch+srun : Large amount of single thread jobs

转载作者：行者123 更新时间：2023-12-04 15:35:31

25

4

大家好，

我的问题很具体。

一个多星期以来，我一直在尝试使用 sbatch 和 srun 提交数千个单线程作业以进行科学实验。

问题是这些作业可能需要不同的时间才能完成，有些作业甚至可能会因为超出内存限制而中止。这两种行为都很好，我的评估处理了它。

但是，我面临着一些作业从未开始的问题，即使它们已经提交。

我的 sbatch 脚本如下所示:

#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000

for i in {1..500}
do

   srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &   
   wait 5s

done

现在，我的错误日志显示以下消息:

srun: Job 1846955 step creation temporarily disabled, retrying

1) “步骤创建暂时禁用”是什么意思？是所有 cpu 都忙并且作业被省略了还是稍后资源空闲时又开始了？

2) 为什么我的一些工作没有执行，我该如何解决？我是否为 srun 使用了正确的参数？

感谢您的帮助!

最佳答案

srun: Job 1846955 step creation temporarily disabled, retrying

这很正常，您保留了 4 x 12 个 CPU 并启动了 500 个 srun 实例。只有 48 个实例将运行，而另一个将输出该消息。每当一个正在运行的实例停止时，一个挂起的实例就会启动。

wait 5s

wait 命令用于等待进程，而不是等待一定的时间。为此，请使用 sleep 命令。 wait 命令必须位于脚本的末尾。否则，作业可能会在所有 srun 实例完成之前停止。

所以脚本应该是这样的:

#!/usr/bin/bash
#SBATCH --nodes=4
#SBATCH --tasks-per-node=12
#SBATCH --mem-per-cpu=10000

for i in {1..500}
do

   srun -N1 -n1 -c1 --exclusive --time=60 ${mybinary} $i &   

done
wait

关于shell - sbatch+srun : Large amount of single thread jobs，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59896660/

25

4

0

文章推荐： permissions - gitlab ci - 您无权访问该资源

文章推荐： vue.js - Nuxt vendor.app 太大，font awesome 太大

SLURM，使用 srun 打印输出
我正在使用 srun 来运行我的程序，但是它无法打印输出。 me@home:~$ srun -p K80q --gres=gpu:1 -N 1 python3 main.py 2019-05-15 1
python - srun(或mpirun)如何同步不同集群节点上的执行环境？
这个问题很容易用例子来解释。我正在运行一个 myscript.py 虚拟 Python-MPI 脚本，其内容就在下面两行。 from subprocess import call call(['whi
bash - 在 SLURM 之外使用 srun
我有一段代码通常在 SLURM 下运行。有点像 if ! lengthy_command then echo "Error occured" fi 出于会计目的，我想转移到基于 srun 的命
slurm - 并行但不同的 Slurm srun 作业步骤调用不起作用
我想在大量不同的输入文件上运行相同的程序。我可以将每个作为单独的 Slurm 提交提交，但我不想通过一次在队列上倾倒 1000 个作业来淹没队列。我一直在试图弄清楚如何通过先创建分配来处理相同数量的文
slurm - 关于并行任务的 `srun ... >output_file` 的语义
抱歉，这个问题需要大量积累，但总而言之，是关于srun ... >output_file的许多并行实例的条件。将或不会导致某些流程/任务对其他流程/任务产生的输出的破坏。案例 0:仅 bash(无
SLURM 如何知道正在运行的作业是 srun 还是 sbatch 作业？
当处于 RUNNING 状态时，我需要区分批处理作业和交互式作业。我无法通过 sact 或 stat 找到了解作业是否为交互式 session 的方法。有没有人解决过类似的问题？最佳答案您可以在
linux - 使用 srun 设置 sbatch 环境变量
在 blog post by Pierre Lindenbaum 中, srun 在 Makefile 中被调用以运行作业。我依靠这种技术，但它根本不使用 sbatch，所以我错过了设置类似 sbat
mpi - Slurm 的 srun 比 mpirun 慢
如果在下面将“mpirun”替换为“srun”，我的 mpi+openmp 作业运行速度会慢 3 倍! #!bin/bash # #SBATCH --job-name=locstack4d_mpi #
parallel-processing - SLURM `srun` 与 `sbatch` 及其参数
我试图了解 SLURM 的 srun 之间有什么区别和 sbatch命令。我会很高兴得到一般性的解释，而不是对以下问题的具体答案，但这里有一些具体的混淆点，可以作为一个起点，并让我了解我正在寻找什么。
Slurm 问题 : Array Job VS srun in a sbatch
Slurm上以下两种并行化方案有什么区别？方案一运行 sbatch script.sh #!/bin/bash #SBATCH --ntasks=8 ## more options srun ec
slurm - 如果作业失败，我如何自动重新排队 SLURM 的 srun 作业？
我必须运行 300 个相同模型的作业(黑匣子)。然而，有时模型内部会出现段错误并显示以下错误消息: srun: error: nodexyz: task 0: Segmentation fault 集
hadoop - Slurm:在 salloc 和 srun 下执行的代码有什么区别
我正在使用由 slurm 管理的集群来运行一些 yarn/hadoop 基准测试。为此，我在 slurm 分配的节点上启动 hadoop 服务器，然后在其上运行基准测试。我意识到这不是运行生产 had
shell - sbatch+srun : Large amount of single thread jobs
大家好，我的问题很具体。一个多星期以来，我一直在尝试使用 sbatch 和 srun 提交数千个单线程作业以进行科学实验。问题是这些作业可能需要不同的时间才能完成，有些作业甚至可能会因为超出内存
ssh - srun : error: Slurm controller not responding, sleeping and retrying
在Slurm中运行以下命令: $ srun -J FRD_gpu --partition=gpu --gres=gpu:1 --time=0-02:59:00 --mem=2000 --ntasks=
python - 是否可以使用 SRUN 而不是 SBATCH 在后台运行 SLURM 作业？
我试图在后台运行 srun 的 slurm 作业。不幸的是，现在由于我必须通过 docker 运行东西，使用 sbatch 有点烦人，所以我试图找出是否可以一起避免它。根据我的观察，每当我运行 sr
html - 我无法将我的 div 对齐到和的右侧；我似乎也无法控制推特嵌入的高度
我无法让我的 twittercontainer 坐在 srun 和 mentor 的右边，我似乎无法改变 twittercontainer 的高度请帮助。我只需要了解如何在一列中获得基本上是两个 di

首页

博学

6Ren·AI

商城

shell - sbatch+srun : Large amount of single thread jobs