gpt4 book ai didi

集群上带有 SLURM 的 C 库函数 exit()

转载 作者:太空宇宙 更新时间:2023-11-04 00:02:45 26 4
gpt4 key购买 nike

我对 exit() 的简单用法有疑问。

context 正在集群上运行程序以进行并行计算,因此我们安装了一个 Slurm 系统来管理和监视所有进程。
现在的问题是,当在我的程序中调用exit(1) 时,SLURM 似乎没有注册它并且 CPU 保持忙碌,耗尽了我分配的 CPU-小时没用,尽管程序已经终止。

所以我的问题是:
main() 中的常规 return 1 相比,exit() 有何不同?
有没有简单的方法来修复我的退出信号?

最佳答案

SLURM 的默认行为是允许作业中的进程完成,即使一个进程崩溃或以非零退出代码退出也是如此。您可以通过在 slurm.conf 中设置 KillOnBadExit=1 或使用 -K/--kill-on-bad-exit=1 来更改此设置运行

关于集群上带有 SLURM 的 C 库函数 exit(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36527007/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com