gpt4 book ai didi

pid - 如何修复 slurm 中的 "slurmd.service: Can' t 打开 PID 文件“错误

转载 作者:行者123 更新时间:2023-12-05 01:40:29 25 4
gpt4 key购买 nike

虽然 SLURM 对于作业提交、运行和排队工作正常,但我在下面遇到了一个小错误。

sudo systemctl status slurmd

Jun 12 10:20:40 noki-System-Product-Name systemd[1]:slurmd.service:无法打开 PID 文件/var/run/slurm-llnl/slurmd.pid(还? ) 启动后:没有那个文件或目录

sudo systemctl status slurmctld

Jun 12 10:20:40 noki-System-Product-Name systemd[1]:slurmd.service:无法打开 PID 文件/var/run/slurm-llnl/slurmd.pid(还? ) 启动后:没有那个文件或目录

我是按照安装指南安装的

file:///home/noki/Downloads/Webinar_2_Slurm_II--Ubuntu16.04_and_18.04.pdf

这个问题可能来自 slurm.conf 文件的所有权?

这是我的 slurm.conf 和 slur*.pid 的所有权

# slurm.conf file generated by configurator easy.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ControlMachine=noki-System-Product-Name
#ControlAddr=
#
#MailProg=/bin/mail
MpiDefault=none
#MpiParams=ports=#-#
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
#SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
#SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=noki
#SlurmdUser=root
StateSaveLocation=/var/spool/slurm-llnl
SwitchType=switch/none
TaskPlugin=task/none
#
#
# TIMERS
#KillWait=30
#MinJobAge=300
#SlurmctldTimeout=120
#SlurmdTimeout=300
#
#
# SCHEDULING
FastSchedule=1
SchedulerType=sched/backfill
SelectType=select/linear
#SelectTypeParameters=
#
#
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
ClusterName=linux
#JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
#SlurmctldDebug=3
SlurmctldLogFile=/var/log/slurm-llnl/SlurmctldLogFile
#SlurmdDebug=3
SlurmdLogFile=/var/log/slurm-llnl/SlurmdLogFile
#
#
# COMPUTE NODES
NodeName=noki-System-Product-Name CPUs=4 RealMemory=6963 Sockets=1 CoresPerSocket=4 ThreadsPerCore=1 State=UNKNOWN
PartitionName=debug Nodes=noki-System-Product-Name Default=YES MaxTime=INFINITE State=UP
total 8
-rw-r--r-- 1 noki root 6 Jun 12 10:20 slurmctld.pid
-rw-r--r-- 1 root root 6 Jun 12 10:20 slurmd.pid

最佳答案

  1. 我记得这些文件必须归 slurm 所有,而不是任何其他用户
  2. 如果 (1) 没有帮助:您运行的 Ubuntu 是否与您所引用的示例相同?如果不是:仔细检查 slurm.conf 文件中的 slurmd.pid 位置是否与 slurmd.service 中的位置相同。这些要求取决于发行版。尝试运行:
# looking for slurmd.service file
find / -name "slurmd.service"
# assuming you found it somewhere. Check the content:
cat /full_path_to/slurmd.service

找到它查找 PID 文件的确切位置。

如果需要:对 slurmctld.service 文件和 SlurmctldPidFile 值重复相同的操作。

检查并编辑slurm.conf后将其复制到每个节点并重启服务。

关于pid - 如何修复 slurm 中的 "slurmd.service: Can' t 打开 PID 文件“错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56553665/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com