- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我想在 Ubuntu 16.04 上模拟 SLURM。我不需要认真的资源管理,我只是想测试一些简单的例子。我 cannot install SLURM in the usual way ,我想知道是否还有其他选择。我尝试过的其他事情:
A Docker image .不幸的是,docker pull agaveapi/slurm; docker run agaveapi/slurm
给我错误:
/usr/lib/python2.6/site-packages/supervisor/options.py:295: UserWarning: Supervisord 正在以 root 身份运行,它正在默认位置(包括其当前工作目录)中搜索其配置文件;您可能希望指定一个“-c”参数来指定配置文件的绝对路径以提高安全性。 'Supervisord 以 root 用户身份运行并且正在搜索'2017-10-29 15:27:45,436 CRIT Supervisor 以 root 身份运行(配置文件中没有用户)2017-10-29 15:27:45,437 INFO supervisord 以 pid 1 开始2017-10-29 15:27:46,439 信息生成:'slurmd' 与 pid 92017-10-29 15:27:46,441 信息生成:“sshd”,pid 102017-10-29 15:27:46,443 信息生成:'munge' 与 pid 112017-10-29 15:27:46,443 信息生成:'slurmctld' 与 pid 122017-10-29 15:27:46,452 信息退出:munge(退出状态 0;未预期)2017-10-29 15:27:46,452 CRIT 收获未知 pid 13)2017-10-29 15:27:46,530 INFO 放弃:munge 进入 FATAL 状态,太多启动重试太快2017-10-29 15:27:46,531 信息退出:slurmd(退出状态 1;未预期)2017-10-29 15:27:46,535 信息放弃:slurmd 进入致命状态,太多启动重试太快2017-10-29 15:27:46,536 信息退出:slurmctld(退出状态 0;未预期)2017-10-29 15:27:47,537 INFO 成功:sshd 进入 RUNNING 状态,进程已停留超过 1 秒(startsecs)2017-10-29 15:27:47,537 INFO 放弃:slurmctld 进入致命状态,太多启动重试太快
This guide to start a SLURM VM via Vagrant .我试过了,但是复制我的 munge
键超时。
sudo scp/etc/munge/munge.key vagrant@server:/home/vagrant/ssh:连接到主机服务器端口 22:连接超时失去联系
最佳答案
所以 ... 我们这里有一个现有的集群,但它运行的是较旧的 Ubuntu 版本,该版本与我运行 17.04 的工作站不能很好地融合。
所以在我的工作站上,我只是确保安装了 slurmctld
(后端)和 slurmd
,然后设置一个简单的 slurm.conf
与
ControlMachine=mybox
# ...
NodeName=DEFAULT CPUs=4 RealMemory=4000 TmpDisk=50000 State=UNKNOWN
NodeName=mybox CPUs=4 RealMemory=16000
之后我重新启动了 slurmcltd
,然后是 slurmd
。现在一切都很好:
root@mybox:/etc/slurm-llnl$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
demo up infinite 1 idle mybox
root@mybox:/etc/slurm-llnl$
这是一个退化的设置,我们的真实设置混合了开发和生产机器以及适当的分区。但这应该回答你的“后端真的可以成为客户”的问题。此外,我的机器实际上并不称为 mybox
,但在任何一种情况下都与问题无关。
使用 Ubuntu 17.04,全部原装,使用 munge
进行通信(无论如何这是默认设置)。
编辑:即:
me@mybox:~$ COLUMNS=90 dpkg -l '*slurm*' | grep ^ii
ii slurm-client 16.05.9-1ubun amd64 SLURM client side commands
ii slurm-wlm-basic- 16.05.9-1ubun amd64 SLURM basic plugins
ii slurmctld 16.05.9-1ubun amd64 SLURM central management daemon
ii slurmd 16.05.9-1ubun amd64 SLURM compute node daemon
me@mybox:~$
关于linux - 在 Ubuntu 16.04 上模拟 SLURM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47002755/
我在 slurm 中使用 sbatch 运行了很多作业,如下所示: #!/usr/bin/env python #SBATCH --job-name=Python #SBATCH --array=1-
我想让安排作业的用户使用 -t, --time= 列出任何作业时间限制.但是,当用户没有设置时间限制时,我想强加一个默认时间限制,例如 1 小时。我在 slurm.conf 中找不到任何设置来执行此操
例如,您需要运行30个srun作业,但要确保每个作业都在特定节点列表中的一个节点上运行(具有相同的性能,以公平地比较时序)。 你会怎么做? 我试过的 srun --nodelist=machineN[
据我们所知,SLURM 可以在作业完成时发送电子邮件。 除此之外,类似于作业完成时的邮件机制: [问] SLURM 是否可以在任何作业完成时触发脚本(由前端 SLURM 用户实现)? 示例解决方案:这
有没有办法找出作业被 slurm 取消的原因?我想将达到资源限制的情况与所有其他原因(如手动取消)区分开来。如果达到资源限制,我也想知道是哪一个。 最佳答案 slurm 日志文件明确包含该信息。它还会
我观察到当我运行 SLURM 作业时,它可以在其他文件夹路径上创建文件,也可以删除它们。他们可以通过 SLURM 作业访问其他文件夹/文件并对其进行更改,这似乎很危险。 $ sbatch run.sh
我想为 slurm 中的批处理作业指定每个内核的最大内存量 我可以看到两个 sbatch 内存选项: --mem=MB maximum amount of real memory per n
我知道对于特定的工作 ID,我可以使用 scontrol hold $JOBID。 如何保留多个 ID 的作业或/和保留一系列作业 ID 的作业(例如 scontrol hold 294724-294
我对 cpu 如何与内存通信知之甚少,所以我不确定这是否是一个“正确”的问题。 在我提交给 slurm 集群的作业脚本中,该脚本需要从存储在工作字典中的数据库中读取数据。我想监视运行此脚本所使用的内存
我正在整理一个 snakemake slurm 工作流程,并且我的工作目录被 slurm 输出文件弄得杂乱无章。我希望我的工作流程至少将这些文件定向到我的工作目录中的“slurm”目录。我目前的工作流
我正在努力理解如何使用 SLURM 在同一节点中运行多个进程。 假设我想运行一个具有 100 个不同输入参数的程序。例如,这就是我在笔记本电脑上所做的: for i in `seq 100`; do
sinfo仅显示当前状态( alloc 、 idle 等)和 Slurm 节点的时间限制。 squeue似乎只显示用户自己提交的作业,而不显示其他用户提交的作业。 有没有办法知道其他用户分配的节点何时
我有一个需要处理的文本文件列表(约 200 个文件)。所以我试图为此任务提交一个 slurm 作业数组,但我找不到解决方案。我尝试过的是通过循环遍历文件来提交多个作业(约 200 个作业)来完成一个任
我知道如何使用 cgroups(分配内存、cpu 使用...)和 slurm(提交、暂停/停止工作)。我想知道 cgroups 如何与 slurm 一起工作。当我向 slurm 提交作业时,我可以在哪
我有一堆作业在 slurm 中作为数组作业运行: 123_[1-500] PD my_job 0:00 me 123_2 R my_job 9:99 me 123_3 R
作为管理员,我需要为给定的工作赋予最大的优先级。 我发现提交选项如:--priority=或 --nice[=adjustment]可能有用,但我不知道我应该为它们分配哪些值,以便为工作提供最高优先级
我想提交一个数组作业来处理 100 个任务,每个任务只使用一个 CPU。我可以访问具有 10 个节点和 24 个内核的集群,每个节点都激活了超线程。我用 --array=1-100%24 限制并发作业
我有一些脚本发送到我可以使用 sbatch 访问的集群。但是,我想暂停这些正在运行的脚本,而不必取消它们的工作,因为它们已经运行了一段时间。 有没有办法在不取消他们已经完成的工作的情况下暂停/暂停当前
我有一份运行由 slurm 管理的 Linux 机器的工作。现在作业已经运行了几个小时,我意识到我低估了它完成所需的时间,因此我指定的 --time 参数的值不够。有没有办法通过 slurm 为现有正
是否可以扩展 SLURM 中命令 sacct 的 JobName 列中使用的字符数? 例如,我目前有: JobID JobName Elapsed NCPUS
我是一名优秀的程序员,十分优秀!