c - MPI_Sendrecv 在 3 个以上的进程上死锁-6ren

c - MPI_Sendrecv 在 3 个以上的进程上死锁

转载作者：行者123 更新时间：2023-12-01 11:56:36

尝试进行“halo/ghost”行交换时，我被死锁难住了(在图片下方的代码片段中)。要交换的“光环”行表示为深灰色线(在图片中)以及 hp[0] 和 hp[M-1](在代码)。

[不能发图片；声望不够。再次换句话说:hp[0] 和 hp[M-1] 是“光环”行(即要交换的行)，而 hp[1] 和 hp[M-2](以及中间的所有行)都将用它来计算。]

为什么此代码段(适用于 2 个进程)会与 3 个以上的进程发生死锁？

// in-between processes ("P1" and "P2" in the picture; 
// one of "P1" and "P2" is of course missing in the case of 3 processes)
if (p > 0 && p < P-1) 
{ 
    MPI_Sendrecv(hp[M-2], N, MPI_DOUBLE, p+1, 0, 
                 hp[0],   N, MPI_DOUBLE, p-1, 0, MPI_COMM_WORLD, &s);  
    MPI_Sendrecv(hp[1],   N, MPI_DOUBLE, p-1, 1, 
                 hp[M-1], N, MPI_DOUBLE, p+1, 1, MPI_COMM_WORLD, &s);  
}
// root process ("P0" in the picture)
else if (p == 0) 
{
    MPI_Sendrecv(hp[M-2], N, MPI_DOUBLE, p+1, 0, 
                 hp[M-1], N, MPI_DOUBLE, p+1, 1, MPI_COMM_WORLD, &s);  
}
// last process ("P3" in the picture)
else 
{
    MPI_Sendrecv(hp[1],   N, MPI_DOUBLE, p-1, 1, 
                 hp[0],   N, MPI_DOUBLE, p-1, 0, MPI_COMM_WORLD, &s); 
}

平台:Windows XP DeinoMPI具有按钮 “显示消息” 的 GUI，“中断正在运行的作业并打印消息队列的当前状态”

好吧，这是一个“当前状态”的例子(当处于死锁状态时):

Rank 0 queues:
 Posted receive queue:
  rank=2, tag=1, context_id=1(Collective), count=0, dtype=MPI_BYTE
Rank 1 queues:
 Posted receive queue:
  rank=0, tag=0, context_id=MPI_COMM_WORLD, count=10, dtype=MPI_DOUBLE
 Received but unmatched queue:
  rank=2, tag=2, context_id=MPI_COMM_WORLD, length=80
  rank=2, tag=2, context_id=MPI_COMM_WORLD, length=80
  rank=0, tag=1, context_id=1(Collective), length=0
Rank 2 queues:
 Posted receive queue:
  rank=1, tag=1, context_id=MPI_COMM_WORLD, count=10, dtype=MPI_DOUBLE

为什么有 MPI_BYTE 作为数据类型和 1(Collective) 作为上下文？为什么 Rank 0 在他的接收队列中有 rank = 2？!

PS:请原谅我问(或遗漏)了一些显而易见的问题，但我已经阅读了太多 SO 问题，可惜找不到解决方案。太多了，以至于我知道 Jonathan Dursi、High Performance Mark 和 suszterpatt 的 HPC 三人组。

更新(完整循环)

循环没有更多内容，所以我可以完整地发布它:它有一些评论 MPI_Barrier这是因为我在随机尝试哪种组合会起作用(谈论“黑匣子”)。因此，除了那些 MPI_Barrier(以及循环之前的 MPI_Sccaterv)之外，没有任何其他通信正在进行。出于测试目的，我在循环之后的 MPI_Gatherv 之前执行了一个 return 0;(因此这应该也没有死锁影响)。

while (1)
{
    difference = 0.0;

    //MPI_Barrier(MPI_COMM_WORLD);

    // in-between processes ("P1" and "P2" in the picture; 
    // one of "P1" and "P2" is of course missing in the case of 3 processes)
    if (p > 0 && p < P-1) 
    { 
        MPI_Sendrecv(hp[M-2], N, MPI_DOUBLE, p+1, 0, 
                     hp[0],   N, MPI_DOUBLE, p-1, 0, MPI_COMM_WORLD, &s);  
        MPI_Sendrecv(hp[1],   N, MPI_DOUBLE, p-1, 1, 
                     hp[M-1], N, MPI_DOUBLE, p+1, 1, MPI_COMM_WORLD, &s);  
    }
    // root process ("P0" in the picture)
    else if (p == 0) 
    {
        MPI_Sendrecv(hp[M-2], N, MPI_DOUBLE, p+1, 0, 
                     hp[M-1], N, MPI_DOUBLE, p+1, 1, MPI_COMM_WORLD, &s);  
    }
    // last process ("P3" in the picture)
    else 
    {
        MPI_Sendrecv(hp[1],   N, MPI_DOUBLE, p-1, 1, 
                     hp[0],   N, MPI_DOUBLE, p-1, 0, MPI_COMM_WORLD, &s); 
    }
    //MPI_Barrier(MPI_COMM_WORLD);

    // calculate "hpNEW" for each inner point
    for (y = 1; y < M-1; ++y)
        for (x = 1; x < N-1; ++x)
        {
            hpNEW[y][x] = (hp[y][x-1] + hp[y][x+1] + hp[y-1][x] + hp[y+1][x]) / 4.0;
            if (fabs( hpNEW[y][x] - hp[y][x] ) > diff)
                difference = fabs(hpNEW[y][x] - hp[y][x]);
        }

    if (difference < EPSILON)
        break;

    // transfer "hpNEW"'s calculated inner points to "hp" for next iteration 
    for (y = 1; y < M-1; ++y)
        for (x = 1; x < N-1; ++x)
            hp[y][x] = hpNEW[y][x];
} // while END

一个进程确实会首先 break 退出循环......这会/可能会导致死锁(以及我不知道的其他可能情况)？如果是这样，如何预防？

关于“奇怪的”标签的另一件事。我刚刚运行了上面的循环，所有的 MPI_Barrier 都被注释掉了……并得到了这个“奇怪的”(有一个 tag=4!)消息队列状态:

Rank 0 queues:
 Posted receive queue:
  rank=1, tag=4, context_id=1(Collective), count=30, dtype=MPI_DOUBLE
 Received but unmatched queue:
  rank=2, tag=1, context_id=1(Collective), length=0
Rank 1 queues:
 Posted receive queue:
  rank=0, tag=0, context_id=MPI_COMM_WORLD, count=10, dtype=MPI_DOUBLE
 Received but unmatched queue:
  rank=2, tag=1, context_id=MPI_COMM_WORLD, length=80
Rank 2 queues:
 Posted receive queue:
  rank=1, tag=1, context_id=1(Collective), count=0, dtype=MPI_BYTE

最佳答案

还有其他人，我们只是最近活跃的...

Windows 上的 DeinoMPI 很有趣，我没有意识到它有很好的工具来实时查看发生了什么。

所以您绝对不是在问明显的问题；从表面上看，我认为您发布的代码没有任何问题。我个人觉得使用MPI_PROC_NULL之类的东西来简化代码逻辑会更清晰:

left = p-1;
if (left < 0) left = MPI_PROC_NULL;
right = p+1;
if (right >= P) right = MPI_PROC_NULL;

MPI_Sendrecv(hp[M-2], N, MPI_DOUBLE, right, 0, 
             hp[0],   N, MPI_DOUBLE, left , 0, MPI_COMM_WORLD, &s);  
MPI_Sendrecv(hp[1],   N, MPI_DOUBLE, left , 1, 
             hp[M-1], N, MPI_DOUBLE, right, 1, MPI_COMM_WORLD, &s);

并让 MPI 库处理边缘情况，而不是进行显式测试 if (p == 0) 等；但这是一个品味问题，也是您之后要如何处理代码的问题。

消息队列中的情况非常困惑，我认为您发布的代码不是造成死锁的原因，尽管它可能是(比方说)排名 1 最终出现死锁的地方——它可能是可以看到等级 1 挂起。

如果你看看发生了什么，等级 1 正在等待等级 0 的 10 个 double ，等级 2 正在等待等级 1 的 10 个 double ，所以这就像你的光环填充的向右发送阶段 -- 1 和2 已经发布了他们各自在该阶段的接收——除了 2 的标签是错误的，它收到了 10 个带有标签 1 的 double ，这不应该发生(通过上面的代码)。

最重要的是，等级 0 正在等待该集合完成(与之关联的数据为零——可能是一个障碍？或者 MPI_Finalize 或其他具有隐含同步的东西？)因此不会发送到 1 ;等级 1 已经有一条消息作为该集体的一部分，因此如果它完成，它会立即清除它并使其成为该集体的一部分。它还有两条来自等级 2 的消息，标签为 2？因此，这必须来自当前代码片段之外的另一个通信阶段。

只是根据我在队列中看到的内容进行猜测，我猜代码是这样的:

loop { 
    communication as posted above;

    another phase of communication;

    synchronization (barrier?)
}

第二阶段的沟通有一个微妙的错误。

更新:

好的，所以在不同时间退出循环的进程肯定会导致锁定，因为进程开始等待永远不会来自其邻居的消息。但这很容易解决；在本地计算出最大差异后，您可以找到具有 MPI_Allreduce 的处理器之间的最大差异。 ;只有当 hp 和 hpNEW 之间的全局差异处处都小于 EPSILON 时，您才会继续。

// calculate "hpNEW" for each inner point locally
for (y = 1; y < M-1; ++y)
    for (x = 1; x < N-1; ++x)
    {
        hpNEW[y][x] = (hp[y][x-1] + hp[y][x+1] + hp[y-1][x] + hp[y+1][x]) / 4.0;
        if (fabs( hpNEW[y][x] - hp[y][x] ) > diff)
            diff = fabs(hpNEW[y][x] - hp[y][x]);
    }

// find the maximum of all the local differences

MPI_Allreduce (&diff, &globaldiff, 1, MPI_DOUBLE, MPI_MAX, MPI_COMM_WORLD);

if (globaldiff < EPSILON)
    break;

关于c - MPI_Sendrecv 在 3 个以上的进程上死锁，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6497452/

文章推荐：带有换行符的 Oracle SQL VARCHAR 列

文章推荐： java - 局域网内无法访问H2数据库

文章推荐： java - Java 中的键绑定(bind)不起作用

文章推荐： prolog - 使用 "Univ"/"=.."元谓词返回函数的 bool 结果？

linux - 如何通过 STIME 终止 linux 进程(悬空 svnserve 进程)
我是 Linux 的新手，并且继承了保持我们的单一 Linux 服务器运行的职责。这是我们的SVN服务器，所以比较重要。原来在我之前维护它的人有一个 cron 任务，当有太多 svnserve 进程
Nodejs极简入门教程（三）：进程
Node 虽然自身存在多个线程，但是运行在 v8 上的 JavaScript 是单线程的。Node 的 child_process 模块用于创建子进程，我们可以通过子进程充分利用 CPU。范例：
ubuntu - Jenkins 进程
Jenkins 有这么多进程处于事件状态是否正常？我检查了我的设置，我只配置了 2 个“执行者”... htop http://d.pr/i/RZzG+ 最佳答案您不仅要限制 Master 中的执
带管道的 Scala 进程
我正在尝试在 scala 中运行这样的 bash 命令: cat "example file.txt" | grep abc Scala 有一个特殊的流程管道语法，所以这是我的第一个方法: val f
循环和文件输出中的 Java 进程
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
multithreading - 进程、线程和并发编程
我需要一些帮助来理解并发编程的基础知识。事实上，我读得越多，就越感到困惑。因此，我理解进程是顺序执行的程序的一个实例，并且它可以由一个或多个线程组成。在单核CPU中，一次只能执行一个线程，而在多核CP
testing - 在集成测试期间如何运行服务器(进程)？
我的问题是在上一次集成测试后服务器进程没有关闭。在integration.rs中，我有: lazy_static! { static ref SERVER: Arc> = {
Scala 进程 - 捕获标准输出和退出代码
我正在使用 Scala scala.sys.process图书馆。我知道我可以用 ! 捕获退出代码和输出 !!但是如果我想同时捕获两者呢？我看过这个答案 https://stackoverflow
c++ - 使用共享库同步两个C++进程
我正在开发一个C++类(MyClass.cpp)，将其编译为动态共享库(MyClass.so)。同一台Linux计算机上运行的两个不同应用程序将使用此共享库。它们是两个不同的应用程序。它不是多线程
c - 查找UDP数据包的源IP/进程
我在我的 C 程序中使用 recvfrom() 从多个客户端接收 UDP 数据包，这些客户端可以使用自定义用户名登录。一旦他们登录，我希望他们的用户名与唯一的客户端进程配对，这样服务器就可以通过数据包
C、进程、fork
如何更改程序，以便函数 function_delayed_1 和 function_delayed_2 仅同时执行一次: int main(int argc, char *argv[]) {
c - 操作系统 - 进程
考虑这两个程序: //in #define MAX 50 int main(int argc, char* argv[]) { int *count; int fd=shm
linux - 如何同时打开三个终端(进程)
请告诉我如何一次打开三个终端，这样我的项目就可以轻松执行，而不必打开三个终端三次然后运行三个exe文件。请问我们如何通过脚本来做到这一点，即打开三个终端并执行三个 exe 文件。最佳答案在后台运行
远程计算机上的 C# 进程
我编写了一个监控服务来跟踪一组进程，并在服务行为异常、内存使用率高、超出 CPU 运行时间等时发出通知。这在我的本地计算机上运行良好，但我需要它指向远程机器并获取这些机器上的进程信息。我的方法，在
c# - 进程、线程和线程池
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 8年前关闭。 Improve this qu
c# - 后台线程/进程
我有一个允许用户上传文件的应用程序。上传完成后，必须在服务器上完成许多处理步骤(解压、存储、验证等...)，因此稍后会在一切完成后通过电子邮件通知用户。我见过很多示例，其中 System.Compo
linux - 什么时候将虚拟地址分配给程序/进程？
这个问题对很多人来说可能听起来很愚蠢，但我想对这个话题有一个清晰的理解。例如:当我们在 linux(ubuntu, x86) 上构建一个 C 程序时，它会在成功编译和链接过程后生成 a.out。 a.
java - 在linux中如何识别一个进程是java还是c或c++进程？
ps -eaf | grep java 命令在这里不是识别进程是否是 java 进程的解决方案，因为执行此命令后我的许多 java 进程未在输出中列出。最佳答案简答(希望有人写一个更全面的): 获
内核与系统中的 Windows 进程
我有几个与内核态和用户态的 Windows 进程相关的问题。如果我有一个 hello world 应用程序和一个暴露新系统调用 foo() 的 hello world 驱动程序，我很好奇在内核模式下
具有不受信任完整性级别的 Windows 进程
我找不到很多关于 Windows 中不受信任的完整性级别的信息，对此有一些疑问: 是否有不受信任的完整性级别进程可以创建命名对象的地方？ (互斥锁、事件等) 不受信任的完整性级别进程是否应该能够打开一

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - MPI_Sendrecv 在 3 个以上的进程上死锁

更新(完整循环)