gpt4 book ai didi

cluster-computing - 打开 MPI/MPICH - 如果节点终止会发生什么?

转载 作者:行者123 更新时间:2023-12-04 07:45:26 26 4
gpt4 key购买 nike

我想知道如果 OpenMPI/MPICH2 集群的节点终止会发生什么?是否有一些机制可以容忍这种情况并继续执行?

感谢您的回答
海因里希

最佳答案

请注意,自 MPI 1.x 天以来就存在的功能是您可以设置错误处理程序:例如,

http://www.mpi-forum.org/docs/mpi-11-html/node148.html

正如 Mark 指出的那样,我们大多数人只使用 MPI_ERRORS_ARE_FATAL(这是默认值),因为我们的算法非常重状态并且不容易恢复(除了通过检查点,我们大多数人无论如何都会这样做)。

但事实并非如此。您可以让 MPI 函数返回错误消息并尽可能地尝试恢复。

有一些容错的 MPI 包 - http://icl.cs.utk.edu/ftmpi/ (这有点旧,只实现了 MPI 1.2 功能)。最近,http://osl.iu.edu/research/ft/cifts/是作为单独项目放入 OpenMPI 的一种方法,还有一个操作系统级别的检查点/重启包 BLCR,这可能会引起人们的兴趣。

MPI-3 论坛正在讨论 MPI 中的标准容错 API,因此此类项目的步伐正在加快。

关于cluster-computing - 打开 MPI/MPICH - 如果节点终止会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4194965/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com