nonblocking - MPI 非阻塞 Irecv 没有收到数据？-6ren

nonblocking - MPI 非阻塞 Irecv 没有收到数据？

转载作者：行者123 更新时间：2023-12-02 06:34:35

30

4

我使用MPI非阻塞通信(MPI_Irecv, MP_Isend)来监控slaves的空闲状态，代码如下。

排名 0:

int dest = -1;
while( dest <= 0){
   int i;
   for(i=1;i<=slaves_num;i++){
      printf("slave %d, now is %d \n",i,idle_node[i]);
      if (idle_node[i]== 1) {
         idle_node[i] = 0;
         dest = i;
         break;
      }
   }
   if(dest <= 0){
      MPI_Irecv(&idle_node[1],1,MPI_INT,1,MSG_IDLE,MPI_COMM_WORLD,&request);
      MPI_Irecv(&idle_node[2],1,MPI_INT,2,MSG_IDLE,MPI_COMM_WORLD,&request);
      MPI_Irecv(&idle_node[3],1,MPI_INT,3,MSG_IDLE,MPI_COMM_WORLD,&request);
      // MPI_Wait(&request,&status);
   }
   usleep(100000);
}

idle_node[dest] = 0;//indicates this slave is busy now

排名 1,2,3:

while(1)
{
   ...//do something
   MPI_Isend(&idle,1,MPI_INT,0,MSG_IDLE,MPI_COMM_WORLD,&request);
   MPI_Wait(&request,&status);
}

它可以工作，但我希望它更快，所以我删除了这行:

usleep(100000);

然后 rank 0 像这样进入死亡状态:

slave 1, now is 0
slave 2, now is 0
slave 3, now is 0 
slave 1, now is 0
slave 2, now is 0
slave 3, now is 0 
...

那么是不是说明我在使用MPI_Irecv时，只是告诉MPI我想在这里接收消息(还没有收到消息)，而MPI需要其他时间来接收真正的数据？还是其他原因？

最佳答案

非阻塞操作的使用在这里已经反复讨论过了。来自 MPI 规范(非阻塞通信 部分):

Similarly, a nonblocking receive start call initiates the receive operation, but does not complete it. The call can return before a message is stored into the receive buffer. A separate receive complete call is needed to complete the receive operation and verify that the data has been received into the receive buffer. With suitable hardware, the transfer of data into the receiver memory may proceed concurrently with computations done after the receive was initiated and before it completed.

(粗体是从标准中逐字复制的；斜体的重点是我的)

重点是最后一句。该标准不保证非阻塞接收操作将永远完成(甚至开始)，除非 MPI_WAIT[ALL|SOME|ANY] 或 MPI_TEST[ALL|SOME|ANY] 被调用(MPI_TEST* 将完成标志的值设置为 true)。

默认情况下，Open MPI 作为单线程库出现，没有特殊的硬件加速，进行非阻塞操作的唯一方法是定期调用一些非阻塞调用(主要示例为 MPI_TEST* ) 或调用一个阻塞的(主要示例是 MPI_WAIT*)。

您的代码还会导致严重的泄漏，迟早会导致资源耗尽:您使用相同的 request 变量多次调用 MPI_Irecv，有效地覆盖了它的值并丢失对先前启动的请求的引用。未等待的请求永远不会被释放，因此保留在内存中。

在你的情况下绝对没有必要使用非阻塞操作。如果我理解正确的逻辑，你可以用简单的代码实现你想要的:

MPI_Recv(&dummy, 1, MPI_INT, MPI_ANY_SOURCE, MSG_IDLE, MPI_COMM_WORLD, &status);
idle_node[status.MPI_SOURCE] = 0;

如果您想同时处理多个工作进程，则涉及更多:

MPI_Request reqs[slaves_num];
int indices[slaves_num], num_completed;

for (i = 0; i < slaves_num; i++)
   reqs[i] = MPI_REQUEST_NULL;

while (1)
{
   // Repost all completed (or never started) receives
   for (i = 1; i <= slaves_num; i++)
      if (reqs[i-1] == MPI_REQUEST_NULL)
         MPI_Irecv(&idle_node[i], 1, MPI_INT, i, MSG_IDLE,
                   MPI_COMM_WORLD, &reqs[i-1]);

   MPI_Waitsome(slaves_num, reqs, &num_completed, indices, MPI_STATUSES_IGNORE);

   // Examine num_completed and indices and feed the workers with data
   ...
}

调用 MPI_Waitsome 后，将有一个或多个已完成的请求。确切的数字将在 num_completed 中，已完成请求的索引将填充到 indices[] 的前 num_completed 元素中。完成的请求将被释放，reqs[] 的相应元素将被设置为 MPI_REQUEST_NULL。

此外，对于使用非阻塞操作似乎存在一种常见的误解。非阻塞发送可以与阻塞接收匹配，阻塞发送也可以与非阻塞接收同等匹配。这使得这样的构造变得荒谬:

// Receiver
MPI_Irecv(..., &request);
... do something ...
MPI_Wait(&request, &status);

// Sender
MPI_Isend(..., &request);
MPI_Wait(&request, MPI_STATUS_IGNORE);

MPI_Isend 紧跟 MPI_Wait 等同于 MPI_Send 并且下面的代码完全有效(并且更容易理解):

// Receiver
MPI_Irecv(..., &request);
... do something ...
MPI_Wait(&request, &status);

// Sender
MPI_Send(...);

关于nonblocking - MPI 非阻塞 Irecv 没有收到数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22826470/

30

4

0

文章推荐： XAML 网格可见性转换？

文章推荐： assembly - 堆栈和寄存器在汇编器中如何工作？

c# - 收到 TypeInitializationException
我有一个静态类。 static class AppDirectory { public static string PACSTEMP = Path.Combine(Path.GetTempPa
收到 iOS 推送通知但没有消息出现
我已经设置了一个启用了推送通知的 iOS 应用。我可以将消息推送到应用程序，例如角标(Badge)计数工作并相应更新。但我从未在锁屏或其他地方看到标准的推送通知弹出窗口，但手机会振动，因此消息会通
c# - 收到 IIS 重置通知？
我们有一个带有 Web 应用程序和一堆 Windows 服务的系统，它们在做一些后台工作。每当我们需要对系统进行更实质性的更改时，我们最终不得不发出 IIS 重置，然后手动重新启动所有相关的 Win
python - 收到 B 的正则表达式名称
我有以下几行 John SMith: A Pedro Smith: B Jonathan B: A John B: B Luis Diaz: A Scarlet Diaz: B 我需要获得所有获得
java - 收到 HANDSHAKE_FAILURE 警报
我正在编写一个 Java 客户端(在 weblogic 10.3 上)来调用一个安全的网络服务。我已获得安装在 cacerts、DemoIdentity.jks 和 DemoTrust,jks 中的客
javascript - 收到 AJAX 响应时引发事件
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎偏离主题，因为它缺乏足够的信息来诊断问题。更详细地描述您的问题或 include a mini
java - 收到预期错误并且不知道为什么
我正在尝试调用void方法addToList，该方法将通过用户传递给它的两个字符串除外。我检查了dataSource类，以确保它确实接受了那些作为参数。问题是我在该方法调用上始终收到标识符>预期错误，
java - 收到 StringIndexOutOfBoundsException 但无法找到源
我的任务:使用scanner方法从一行数据中提取字符串、 float 和整数。数据格式为: Random String, 240.5 51603 Another String, 41.6 59087
Java - 尝试在屏幕上生成单元格，收到 ArrayIndexOutOfBoundsException
这个问题已经有答案了: What causes a java.lang.ArrayIndexOutOfBoundsException and how do I prevent it? (25 个回答)
java - 收到 NullPointerException，不知道为什么
首先我实例化一个游戏状态 class GameState extends state{ ArrayList levels; int currentLevelID; public GameState()
java - 收到 Java 无法访问代码
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
ios - 收到 NSNotification 的速度有多快？
我有一个实现为单例的 Controller 对象，它有一个可以随时驱逐对象的缓存。当一个对象即将被删除时，我想通知任何使用此 Controller 的类，以便它们能够做出适当的响应。我对这种行为的第一
java - JGroups 收到 ClassNotFoundException
因此，我尝试跨集群发送消息，该消息将包含一个 User 对象，该对象是一个可序列化类。当我发送 String 或 int 时，它工作正常，消息发送没有问题，并且集群上的所有 channel 都收到它
java - 收到 StackOverFlowError 且不确定原因？
我试图创建的程序是一个基本游戏，用户输入网格大小，选择 block 接收增加分数的奖品、从分数中夺走分数的强盗或结束游戏的炸弹。我收到堆栈流错误，但我不明白为什么？抱歉，代码量很大，我只是无法找到问
java - 收到 ConcurrentModificationException 但我没有删除
使用此代码我会得到什么ConcurrentModificationException？我有一个同步(监听器)锁。 private void notifyListeners(MediumRenditio
python - 收到 DeadlineExceededError 后我还有多长时间？
我想在捕获 DeadlineExceededError 后正确退出。我还剩下多少钱来清理？例如， try: do_some_work() except DeadlineExceededError
.net - 收到 500 内部服务器错误
我有 2 个 Intranet 站点: http://intranetv1/ http://intranetv2/ v1基于.NET 1.1，v2基于.NET 3.5 在 v1 上，我创建了一个网页，
c - 收到 SIGCHLD 但尚未生成任何子进程
我有一个在 Linux 3.12 上运行的 C 程序。该程序产生几个子进程。其中一个进程会生成一个线程，该线程运行一段时间然后终止。当该子进程运行时，它会执行 epoll_wait()。 epoll_
swift - 收到 APN 时运行函数
我能够将 APNS 集成到我的应用程序中。现在我想在用户点击它或用户在使用应用程序时收到通知时处理通知。我使用下面的代码在收到通知时显示警报对话框: func application(applicat
javascript - 收到 501 错误
当我试图在浏览器上运行这段代码时，出现了以下错误。"错误响应错误代码:501消息:不支持的方法(“POST”)。错误码解释:501-服务器不支持该操作。" 浏览器控制台出现以下错误: "1.加载资源失

首页

博学

6Ren·AI

商城

nonblocking - MPI 非阻塞 Irecv 没有收到数据？