slurm - 为单机设置slurm.conf文件-6ren

slurm - 为单机设置slurm.conf文件

转载作者：行者123 更新时间：2023-12-03 22:12:50

25

4

嗨，我正在尝试利用一个处理管道，该管道被编写为使用 slurm 在多个计算机集群上运行，但是我更愿意在单个计算机上运行它。我在 Ubuntu 18 上安装了 slurm-wlm，但是我无法通过管道读取我从 Slurm 18.08 版配置工具在线制作的 slurm.conf 文件，目标是将它作为单个节点运行，所以我不必重写管道代码。

每次我尝试运行此管道 sh 脚本时，日志文件都会出现此错误

sbatch: error: _parse_next_key: Parsing error at unrecognized key: SlurmctldHost sbatch: error: Parse error in file /etc/slurm-llnl/slurm.conf line 2: "SlurmctldHost=charlie-Z370M-D3H" sbatch: fatal: Unable to process configuration file

charlie-Z370M-D3H 是主机名

下面是我的 slurm.conf 文本，我希望有人能看到我需要做什么才能让它工作

#
SlurmctldHost=charlie-Z370M-D3H
#SlurmctldHost=
#
#DisableRootJobs=NO
#EnforcePartLimits=NO
#Epilog=
#EpilogSlurmctld=
#FirstJobId=1
#MaxJobId=999999
#GresTypes=
#GroupUpdateForce=0
#GroupUpdateTime=600
#JobFileAppend=0
#JobRequeue=1
#JobSubmitPlugins=1
#KillOnBadExit=0
#LaunchType=launch/slurm
#Licenses=foo*4,bar
#MailProg=/bin/mail
#MaxJobCount=5000
#MaxStepCount=40000
#MaxTasksPerNode=128
MpiDefault=none
#MpiParams=ports=#-#
#PluginDir=
#PlugStackConfig=
#PrivateData=jobs
ProctrackType=proctrack/cgroup
#Prolog=
#PrologFlags=
#PrologSlurmctld=
#PropagatePrioProcess=0
#PropagateResourceLimits=
#PropagateResourceLimitsExcept=
#RebootProgram=
ReturnToService=1
#SallocDefaultCommand=
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
#SlurmdUser=root
#SrunEpilog=
#SrunProlog=
StateSaveLocation=/var/spool
SwitchType=switch/none
#TaskEpilog=
TaskPlugin=task/affinity
TaskPluginParam=Sched
#TaskProlog=
#TopologyPlugin=topology/tree
#TmpFS=/tmp
#TrackWCKey=no
#TreeWidth=
#UnkillableStepProgram=
#UsePAM=0
#
#
# TIMERS
#BatchStartTimeout=10
#CompleteWait=0
#EpilogMsgTime=2000
#GetEnvTimeout=2
#HealthCheckInterval=0
#HealthCheckProgram=
InactiveLimit=0
KillWait=30
#MessageTimeout=10
#ResvOverRun=0
MinJobAge=300
#OverTimeLimit=0
SlurmctldTimeout=120
SlurmdTimeout=300
#UnkillableStepTimeout=60
#VSizeFactor=0
Waittime=0
#
#
# SCHEDULING
#DefMemPerCPU=0
FastSchedule=1
#MaxMemPerCPU=0
#SchedulerTimeSlice=30
SchedulerType=sched/backfill
SelectType=select/cons_res
SelectTypeParameters=CR_Core
#
#
# JOB PRIORITY
#PriorityFlags=
#PriorityType=priority/basic
#PriorityDecayHalfLife=
#PriorityCalcPeriod=
#PriorityFavorSmall=
#PriorityMaxAge=
#PriorityUsageResetPeriod=
#PriorityWeightAge=
#PriorityWeightFairshare=
#PriorityWeightJobSize=
#PriorityWeightPartition=
#PriorityWeightQOS=
#
#
# LOGGING AND ACCOUNTING
#AccountingStorageEnforce=0
#AccountingStorageHost=
#AccountingStorageLoc=
#AccountingStoragePass=
#AccountingStoragePort=
AccountingStorageType=accounting_storage/none
#AccountingStorageUser=
AccountingStoreJobComment=YES
ClusterName=cluster
#DebugFlags=
#JobCompHost=
#JobCompLoc=
#JobCompPass=
#JobCompPort=
JobCompType=jobcomp/none
#JobCompUser=
#JobContainerType=job_container/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=3
#SlurmctldLogFile=
SlurmdDebug=3
#SlurmdLogFile=
#SlurmSchedLogFile=
#SlurmSchedLogLevel=
#
#
# POWER SAVE SUPPORT FOR IDLE NODES (optional)
#SuspendProgram=
#ResumeProgram=
#SuspendTimeout=
#ResumeTimeout=
#ResumeRate=
#SuspendExcNodes=
#SuspendExcParts=
#SuspendRate=
#SuspendTime=
#
#
# COMPUTE NODES
NodeName=linux[1-32] CPUs=1 State=UNKNOWN
PartitionName=debug Nodes=linux[1-32] Default=YES MaxTime=INFINITE State=UP

最佳答案

我遇到了同样的问题，结果证明在该网页上生成的 conf 文件仅对 18.08 有效
如果您查看创建 slurm.conf 文件的网页，您可能会注意到它仅对 18.08 版有效。
因此，请确认您的 SLURM 版本至少为 18.x，因为当时在 conf 文件中引入了 key “SlurmctldHost”。

您可以通过简单地输入“dpkg -l | grep slurm”来验证您的 SLURM 版本并注意安装了哪个版本。对于 Ubuntu 18.x，安装的默认软件包是 slurm-version 17.11.9。 (您可能需要从 https://www.schedmd.com/archives.php 下载源代码，方法是选择您已安装的版本并将其下载到本地计算机。

打开它并查看“/doc/html/”-dir，您会在其中找到与您的版本对应的 configurator-html-script。)例如如果您的版本是 17.11.9，那么“SlurmctldHost”(如 18.08 中引入的)对应的键是 17.11.9 版本中的“ControlMachine”。因此，请使用本地 slurm-doc-dir 中的 configurator-html-script 为您安装的 slurm 版本生成有效的 slurm.conf。
我这样做了，效果很好。

关于slurm - 为单机设置slurm.conf文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53028499/

25

4

0

文章推荐： Excel VBA 范围直到最后一个可用单元格

文章推荐： ansible - 无法在 Ansible 中获取 ~/.bash_aliases

slurm - 如何在 slurm 中指定在单个作业完成时而不是在每个 slurm 数组任务完成时发送电子邮件？
我在 slurm 中使用 sbatch 运行了很多作业，如下所示: #!/usr/bin/env python #SBATCH --job-name=Python #SBATCH --array=1-
slurm - Slurm 中的默认作业时间限制
我想让安排作业的用户使用 -t, --time= 列出任何作业时间限制.但是，当用户没有设置时间限制时，我想强加一个默认时间限制，例如 1 小时。我在 slurm.conf 中找不到任何设置来执行此操
slurm - SLURM:如何仅在特定节点上运行30个作业？
例如，您需要运行30个srun作业，但要确保每个作业都在特定节点列表中的一个节点上运行（具有相同的性能，以公平地比较时序）。你会怎么做？我试过的 srun --nodelist=machineN[
slurm - 当任何作业完成时，SLURM 能否触发脚本(由前端 SLURM 用户实现)？
据我们所知，SLURM 可以在作业完成时发送电子邮件。除此之外，类似于作业完成时的邮件机制: [问] SLURM 是否可以在任何作业完成时触发脚本(由前端 SLURM 用户实现)？示例解决方案:这
slurm - 访问 slurm 停止工作的原因
有没有办法找出作业被 slurm 取消的原因？我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。如果达到资源限制，我也想知道是哪一个。最佳答案 slurm 日志文件明确包含该信息。它还会
slurm - 是否可以强制 SLURM 仅访问作业的运行文件夹而不更改任何其他文件？
我观察到当我运行 SLURM 作业时，它可以在其他文件夹路径上创建文件，也可以删除它们。他们可以通过 SLURM 作业访问其他文件夹/文件并对其进行更改，这似乎很危险。 $ sbatch run.sh
slurm - 如何为 slurm 作业指定每个内核的最大内存
我想为 slurm 中的批处理作业指定每个内核的最大内存量我可以看到两个 sbatch 内存选项: --mem=MB maximum amount of real memory per n
slurm - 在 Slurm 担任多项工作
我知道对于特定的工作 ID，我可以使用 scontrol hold $JOBID。如何保留多个 ID 的作业或/和保留一系列作业 ID 的作业(例如 scontrol hold 294724-294
slurm - 如何知道 slurm 上正在运行的作业的实时内存使用情况？
我对 cpu 如何与内存通信知之甚少，所以我不确定这是否是一个“正确”的问题。在我提交给 slurm 集群的作业脚本中，该脚本需要从存储在工作字典中的数据库中读取数据。我想监视运行此脚本所使用的内存
slurm - Snakemake slurm 输出文件重定向到新目录
我正在整理一个 snakemake slurm 工作流程，并且我的工作目录被 slurm 输出文件弄得杂乱无章。我希望我的工作流程至少将这些文件定向到我的工作目录中的“slurm”目录。我目前的工作流
slurm - 使用 SLURM 的同一节点中的多个任务
我正在努力理解如何使用 SLURM 在同一节点中运行多个进程。假设我想运行一个具有 100 个不同输入参数的程序。例如，这就是我在笔记本电脑上所做的: for i in `seq 100`; do
slurm - 有没有办法知道分配的节点何时在 Slurm 中可用？
sinfo仅显示当前状态( alloc 、 idle 等)和 Slurm 节点的时间限制。 squeue似乎只显示用户自己提交的作业，而不显示其他用户提交的作业。有没有办法知道其他用户分配的节点何时
slurm - 如何使用不同的输入文件提交 slurm 作业数组
我有一个需要处理的文本文件列表(约 200 个文件)。所以我试图为此任务提交一个 slurm 作业数组，但我找不到解决方案。我尝试过的是通过循环遍历文件来提交多个作业(约 200 个作业)来完成一个任
slurm - Cgroup 和 Slurm
我知道如何使用 cgroups(分配内存、cpu 使用...)和 slurm(提交、暂停/停止工作)。我想知道 cgroups 如何与 slurm 一起工作。当我向 slurm 提交作业时，我可以在哪
slurm - 我可以取消 slurm 中的阵列作业吗？
我有一堆作业在 slurm 中作为数组作业运行: 123_[1-500] PD my_job 0:00 me 123_2 R my_job 9:99 me 123_3 R
slurm - 如何为 Slurm 作业设置最大优先级？
作为管理员，我需要为给定的工作赋予最大的优先级。我发现提交选项如:--priority=或 --nice[=adjustment]可能有用，但我不知道我应该为它们分配哪些值，以便为工作提供最高优先级
slurm - 将 slurm 阵列任务限制在单个节点中
我想提交一个数组作业来处理 100 个任务，每个任务只使用一个 CPU。我可以访问具有 10 个节点和 24 个内核的集群，每个节点都激活了超线程。我用 --array=1-100%24 限制并发作业
slurm - 是否可以在 SLURM 中暂停当前正在运行的提交脚本？
我有一些脚本发送到我可以使用 sbatch 访问的集群。但是，我想暂停这些正在运行的脚本，而不必取消它们的工作，因为它们已经运行了一段时间。有没有办法在不取消他们已经完成的工作的情况下暂停/暂停当前
slurm - 为正在运行的 slurm 作业添加时间
我有一份运行由 slurm 管理的 Linux 机器的工作。现在作业已经运行了几个小时，我意识到我低估了它完成所需的时间，因此我指定的 --time 参数的值不够。有没有办法通过 slurm 为现有正
slurm - 展开列以查看 Slurm 中的完整作业名称
是否可以扩展 SLURM 中命令 sacct 的 JobName 列中使用的字符数？例如，我目前有: JobID JobName Elapsed NCPUS

首页

博学

6Ren·AI

商城

slurm - 为单机设置slurm.conf文件