gpt4 book ai didi

slurmctld : fatal: CLUSTER NAME MISMATCH

转载 作者:行者123 更新时间:2023-12-02 01:36:20 29 4
gpt4 key购买 nike

我开始说脏话的方式:

mkdir -p /tmp/slurmstate/clustername
sudo slurmd
sudo munged -f
/etc/init.d/munge start
sudo slurmdbd
sudo slurmctld -c

-

sacctmgr list cluster
Cluster ControlHost ControlPort RPC Share GrpJobs GrpTRES GrpSubmit MaxJobs MaxTRES MaxSubmit MaxWall QOS Def QOS
---------- --------------- ------------ ----- --------- ------- ------------- --------- ------- ------------- --------- ----------- -------------------- ---------
cluster 0 7936 1 normal

运行slurmctld -cD 给出以下错误。集群名称返回一些我不知道的无效字符串。我该如何解决它?

> slurmctld -cD
slurmctld: fatal: CLUSTER NAME MISMATCH.
slurmctld has been started with "ClusterName=�����", but read "cluster" from the state files in StateSaveLocation.
Running multiple clusters from a shared StateSaveLocation WILL CAUSE CORRUPTION.
Remove /tmp/slurmstate/clustername to override this safety check if this is intentional (e.g., the ClusterName has changed).

注意:当我尝试以 root 用户身份运行 slurm 并切换回来时,此问题开始出现。我必须重新安装 mysql 才能修复它。

感谢您的宝贵时间和帮助。

最佳答案

我是一个十足的 SLURM 菜鸟(刚刚开始对它的工作感兴趣),所以如果我提出误导性的建议,我深表歉意,但我想我可以指出一些错误的地方。

启动序列中的第一行:

mkdir -p /tmp/slurmstate/clustername

所以你在这里创建一个目录,我的意思是clustername是一个目录

当守护进程启动时,它会尝试将此作为文件读取 ( using fopen and fgets, see source code of latest version )。

然后,从the behavior of fopen-ing a directory is system-dependent开始,任何事情都可能发生(它可能读取垃圾,或者失败......)。如果您可以指定您正在使用的操作系统,那就会很有趣。

建议:

  • rmdir/tmp/slurmstate/clustername

  • 将第一行替换为 mkdir -p/tmp/slurmstate,以创建 slurmstate 目录(如果不存在),但不要创建 clustername 文件(或目录!)你自己在那里。

第一次它将创建clustername 文件,并在其中写入从slurm.conf 文件中获取的名称。后续启动将从该文件中读取该值,并将其与 slurm.conf 中的值进行比较,然后继续启动。

PS:我刚刚注意到您在上次编辑中添加了该行,因此在执行此操作之前就遇到了根本问题...所以我指出的问题可能没什么。也许我应该(再次)删除该答案(但也许您的问题需要再次编辑)。

关于slurmctld : fatal: CLUSTER NAME MISMATCH,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44456801/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com