gpt4 book ai didi

jobs - Snakemake:作业抢占会中断集群上正在运行的作业,如何确保任务不被视为失败?

转载 作者:行者123 更新时间:2023-12-04 07:43:38 27 4
gpt4 key购买 nike

我在集群上使用 Snakemake,但我不知道如何最好地处理某些作业可以被抢占的事实。
为了在我使用的集群上获得更多权力,可以访问其他团队的资源,但存在被抢占的风险,这包括停止正在进行的作业并重新安排它。一旦资源可用,它将再次启动。当您有很多快速作业要运行时,这尤其有利。不幸的是,我没有 Snakemake 正确支持这一点的印象。
the example given in the help on the cluster-status feature for Slurm ,没有PREEMPTED在 running_status 列表 ( running_status=["PENDING", "CONFIGURING", "COMPLETING", "RUNNING", "SUSPENDED"] ) 中,这可能会导致认为被抢占的作业已失败。没什么大不了的,我加了PREEMPTED到这个列表,但我相信 Snakemake 没有考虑这种情况。
更烦人的是,即使在使用 --rerun-incomplete 运行 Snakemake 时也是如此。选项,当作业被抢占中断,然后重新启动时,我收到以下错误:

IncompleteFilesException:
The files below seem to be incomplete. If you are sure that certain files are not incomplete, mark them as complete with

snakemake --cleanup-metadata <filenames>

To re-generate the files rerun your command with the --rerun-incomplete flag.
我希望中断的工作从头开始。
目前,我找到的唯一解决方案是停止使用其他团队的资源以避免我的工作被抢占,但我正在失去计算能力。
在您的工作可以被抢占的情况下,您如何使用 Snakemake?任何人都看到了解决方案,所以我不再收到 IncompleteFilesException 了?
提前致谢

最佳答案

Snakemake 具有重启功能,可用于让作业自动重新提交。但是,目前确实没有对抢占进行特殊处理。你也说得对,我什至不知道在 slurm 上存在类似的东西。当然,欢迎在这个方向上进行 PR。基本上,需要扩展状态脚本处理以识别这一点,并在这种情况下重新启 Action 业。

关于jobs - Snakemake:作业抢占会中断集群上正在运行的作业,如何确保任务不被视为失败?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67316287/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com