gpt4 book ai didi

c - 异步 MPI_Irecv 的 MPI_Waitall 错误

转载 作者:行者123 更新时间:2023-11-30 16:13:18 24 4
gpt4 key购买 nike

我对两个 MPI_Irecv 使用了 2 个 MPI_Irecv,然后是 2 个 MPI_Send,然后是 MPI_Waitall,如下所示。经过几次计算后,我再次编写了相同的代码块。但 MPI 进程似乎在第一个代码块本身中失败了。

我的通信是这样的,矩阵被水平分割为 MPI 进程的数量,并且通信仅发生在矩阵边界之间,其中下面的矩阵网格发送“开始”/第一行到上面的矩阵网格和上面的矩阵网格发送'end'/矩阵网格下方的最后一行。

MPI_Request request[2];
MPI_Status status[2];
double grid[size];
double grida[size];
.
.
.
<Calculation for grid2[][]>
...

MPI_Barrier(MPI_COMM_WORLD);
if (world_rank != 0){
MPI_Irecv(&grid, size, MPI_DOUBLE, world_rank-1, 0, MPI_COMM_WORLD, &request[1]);
printf("1 MPI_Irecv");
}
if (world_rank != world_size-1){
MPI_Irecv(&grida, size, MPI_DOUBLE, world_rank+1, 1, MPI_COMM_WORLD, &request[0]);
printf("2 MPI_Irecv");
}
if (world_rank != world_size-1){
MPI_Send(grid2[end], size, MPI_DOUBLE, world_rank+1, 0, MPI_COMM_WORLD);
printf("1 MPI_Send");
}
if (world_rank != 0){
MPI_Send(grid2[start], size, MPI_DOUBLE, world_rank-1, 1, MPI_COMM_WORLD);
printf("2 MPI_Send");
}
MPI_Waitall(2, request, status);

MPI_Barrier(MPI_COMM_WORLD);

.
.
.

<Again the above code but without the initialization of MPI_Request and MPI_Status>

但是为此我收到错误:

 *** Process received signal ***
Signal: Bus error: 10 (10)
Signal code: Non-existant physical address (2)
Failing at address: 0x108bc91e3
[ 0] 0 libsystem_platform.dylib 0x00007fff50b65f5a _sigtramp + 26
[ 1] 0 ??? 0x000000010c61523d 0x0 + 4502671933
[ 2] 0 libmpi.20.dylib 0x0000000108bc8e4a MPI_Waitall + 154
[ 3] 0 dist-jacobi 0x0000000104b55770 Work + 1488
[ 4] 0 dist-jacobi 0x0000000104b54f01 main + 561
[ 5] 0 libdyld.dylib 0x00007fff508e5145 start + 1
[ 6] 0 ??? 0x0000000000000003 0x0 + 3
*** End of error message ***
*** An error occurred in MPI_Waitall
*** reported by process [1969881089,3]
*** on communicator MPI_COMM_WORLD
*** MPI_ERR_REQUEST: invalid request
*** MPI_ERRORS_ARE_FATAL (processes in this communicator will now abort,
*** and potentially your MPI job)
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 0 on node dhcp-10 exited on signal 10 (Bus error: 10).
--------------------------------------------------------------------------

为什么 Waitall 抛出错误,以及 printf("1 MPI_Irecv"); 没有被打印。此打印语句之前的所有内容均已正确打印。

该代码与 MPI_Wait() 和 MPI_Isend() 配合使用,如下所示:

 // insert barrier 
MPI_Barrier(MPI_COMM_WORLD);
if (world_rank != 0){
MPI_Irecv(&grid, size*2, MPI_DOUBLE, world_rank-1, 0, MPI_COMM_WORLD, &request[0]);
printf("1 MPI_Irecv");
}
if (world_rank != world_size-1){
MPI_Irecv(&grida, size*2, MPI_DOUBLE, world_rank+1, 1, MPI_COMM_WORLD, &request[1]);
printf("2 MPI_Irecv");
}
if (world_rank != world_size-1){
MPI_Isend(grid2[end], size*2, MPI_DOUBLE, world_rank+1, 0, MPI_COMM_WORLD, &request[0]);
printf("1 MPI_Send");
}
if (world_rank != 0){
MPI_Isend(grid2[start], size*2, MPI_DOUBLE, world_rank-1, 1, MPI_COMM_WORLD, &request[1]);
printf("2 MPI_Send");
}
//MPI_Waitall(2, request, status);
MPI_Wait(&request[0], &status[0]);
MPI_Wait(&request[1], &status[1]);

最佳答案

request[0] 在最后一个Rank 上使用时未初始化,request[1] 在第一个Rank 上使用时未初始化。

一个可能的修复方法是静态初始化 request 数组(假设它没有在代码中的其他任何地方使用)。

MPI_Request request[2] = {MPI_REQUEST_NULL, MPI_REQUEST_NULL};

顺便说一句,您可能需要考虑将 request 重命名为 requests 并将 status 重命名为 statuses清楚地表明这些是数组而不是标量。

关于c - 异步 MPI_Irecv 的 MPI_Waitall 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58083495/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com