gpt4 book ai didi

nonblocking - MPI 非阻塞 Irecv 没有收到数据?

转载 作者:行者123 更新时间:2023-12-02 06:34:35 30 4
gpt4 key购买 nike

我使用MPI非阻塞通信(MPI_Irecv, MP_Isend)来监控slaves的空闲状态,代码如下。

排名 0:

int dest = -1;
while( dest <= 0){
int i;
for(i=1;i<=slaves_num;i++){
printf("slave %d, now is %d \n",i,idle_node[i]);
if (idle_node[i]== 1) {
idle_node[i] = 0;
dest = i;
break;
}
}
if(dest <= 0){
MPI_Irecv(&idle_node[1],1,MPI_INT,1,MSG_IDLE,MPI_COMM_WORLD,&request);
MPI_Irecv(&idle_node[2],1,MPI_INT,2,MSG_IDLE,MPI_COMM_WORLD,&request);
MPI_Irecv(&idle_node[3],1,MPI_INT,3,MSG_IDLE,MPI_COMM_WORLD,&request);
// MPI_Wait(&request,&status);
}
usleep(100000);
}

idle_node[dest] = 0;//indicates this slave is busy now

排名 1,2,3:

while(1)
{
...//do something
MPI_Isend(&idle,1,MPI_INT,0,MSG_IDLE,MPI_COMM_WORLD,&request);
MPI_Wait(&request,&status);
}

它可以工作,但我希望它更快,所以我删除了这行:

usleep(100000);

然后 rank 0 像这样进入死亡状态:

slave 1, now is 0
slave 2, now is 0
slave 3, now is 0
slave 1, now is 0
slave 2, now is 0
slave 3, now is 0
...

那么是不是说明我在使用MPI_Irecv时,只是告诉MPI我想在这里接收消息(还没有收到消息),而MPI需要其他时间来接收真正的数据?还是其他原因?

最佳答案

非阻塞操作的使用在这里已经反复讨论过了。来自 MPI 规范(非阻塞通信 部分):

Similarly, a nonblocking receive start call initiates the receive operation, but does not complete it. The call can return before a message is stored into the receive buffer. A separate receive complete call is needed to complete the receive operation and verify that the data has been received into the receive buffer. With suitable hardware, the transfer of data into the receiver memory may proceed concurrently with computations done after the receive was initiated and before it completed.

(粗体是从标准中逐字复制的;斜体的重点是我的)

重点是最后一句。该标准不保证非阻塞接收操作将永远完成(甚至开始),除非 MPI_WAIT[ALL|SOME|ANY]MPI_TEST[ALL|SOME|ANY] 被调用(MPI_TEST* 将完成标志的值设置为 true)。

默认情况下,Open MPI 作为单线程库出现,没有特殊的硬件加速,进行非阻塞操作的唯一方法是定期调用一些非阻塞调用(主要示例为 MPI_TEST* ) 或调用一个阻塞的(主要示例是 MPI_WAIT*)。

您的代码还会导致严重的泄漏,迟早会导致资源耗尽:您使用相同的 request 变量多次调用 MPI_Irecv,有效地覆盖了它的值并丢失对先前启动的请求的引用。未等待的请求永远不会被释放,因此保留在内存中。

在你的情况下绝对没有必要使用非阻塞操作。如果我理解正确的逻辑,你可以用简单的代码实现你想要的:

MPI_Recv(&dummy, 1, MPI_INT, MPI_ANY_SOURCE, MSG_IDLE, MPI_COMM_WORLD, &status);
idle_node[status.MPI_SOURCE] = 0;

如果您想同时处理多个工作进程,则涉及更多:

MPI_Request reqs[slaves_num];
int indices[slaves_num], num_completed;

for (i = 0; i < slaves_num; i++)
reqs[i] = MPI_REQUEST_NULL;

while (1)
{
// Repost all completed (or never started) receives
for (i = 1; i <= slaves_num; i++)
if (reqs[i-1] == MPI_REQUEST_NULL)
MPI_Irecv(&idle_node[i], 1, MPI_INT, i, MSG_IDLE,
MPI_COMM_WORLD, &reqs[i-1]);

MPI_Waitsome(slaves_num, reqs, &num_completed, indices, MPI_STATUSES_IGNORE);

// Examine num_completed and indices and feed the workers with data
...
}

调用 MPI_Waitsome 后,将有一个或多个已完成的请求。确切的数字将在 num_completed 中,已完成请求的索引将填充到 indices[] 的前 num_completed 元素中。完成的请求将被释放,reqs[] 的相应元素将被设置为 MPI_REQUEST_NULL

此外,对于使用非阻塞操作似乎存在一种常见的误解。非阻塞发送可以与阻塞接收匹配,阻塞发送也可以与非阻塞接收同等匹配。这使得这样的构造变得荒谬:

// Receiver
MPI_Irecv(..., &request);
... do something ...
MPI_Wait(&request, &status);

// Sender
MPI_Isend(..., &request);
MPI_Wait(&request, MPI_STATUS_IGNORE);

MPI_Isend 紧跟 MPI_Wait 等同于 MPI_Send 并且下面的代码完全有效(并且更容易理解):

// Receiver
MPI_Irecv(..., &request);
... do something ...
MPI_Wait(&request, &status);

// Sender
MPI_Send(...);

关于nonblocking - MPI 非阻塞 Irecv 没有收到数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22826470/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com