gpt4 book ai didi

c - MPI 偶发错误

转载 作者:太空宇宙 更新时间:2023-11-04 04:40:50 28 4
gpt4 key购买 nike

我正在运行如下所示的 MPI 代码(解释见下文):

#include <mpi.h>
#include <sys/time.h>
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <unistd.h>

...

int main(int argc, char * argv[])
{
int i,j,local_N,num_procs = 0;
int N = 16; // width and height of matrix

int rank;
float ** A;
float ** local_A;

// MPI stuff
MPI_Init(&argc, &argv);
MPI_Comm_rank(MPI_COMM_WORLD, &rank);
MPI_Comm_size(MPI_COMM_WORLD, &num_procs); // "size" is number of processes
MPI_Status status;

// allocate and initialize A
if (rank == 0) {
A = allocate_matrix(N, N);
initialize_matrix(A, N, N);
}

// allocate local matrices
local_N = N / num_procs;
local_A = allocate_matrix(local_N, N);

//send/rcv pieces of matrix
for (i = 1; i < num_procs; i++) {
if (rank == 0) {
MPI_Send(A[i * local_N], N, MPI_FLOAT, i, 123, MPI_COMM_WORLD);
}

if (rank == i) {
MPI_Recv(local_A[0], N, MPI_FLOAT, 0, 123, MPI_COMM_WORLD, &status);
}
}

if (rank == 0) free_matrix(A, N, N);
free_matrix(local_A, local_N, N);
MPI_Finalize();
return 0;
}

下面是那些辅助方法:

float ** allocate_matrix(int rows, int cols) {
int i = 0;
float ** matrix = (float **) malloc(rows * sizeof(float *));

for (i = 0; i < cols; i++) {
matrix[i] = (float *) malloc(cols * sizeof(float));
}

return matrix;
}

void initialize_matrix(float ** matrix, int rows, int cols) {
int i, j = 0;

for (i = 0; i < rows; i++) {
for (j = 0; j < cols; j++) {
matrix[i][j] = ((float)(rand()%10000))/1000.0;
}
}
}

void free_matrix(float ** matrix, int rows, int cols) {
int i, j = 0;
for (j = 0; j < rows; j++) free(matrix[j]);
}

基本上,我将一个 16 x 16 的矩阵分成(进程数)个 block ,然后从每个 block 向每个进程发送一行。打印发送和接收前后的行表明它们正在正确发送。

我使用 mpirun -n 4 ./<name of executable> 一遍又一遍地运行这段代码,每次都会发生不同的事情。要么:

  • 正常退出

  • mpirun noticed that process rank ... exited on signal 6

  • mpirun noticed that process rank ... exited on signal 10

  • mpirun noticed that process rank ... exited on signal 11

我看到信号 6 并想到“double free()!”,但我尝试删除释放方法,但信号 6 和其他错误仍然存​​在。知道为什么会发生这些错误,为什么每次都是不同的错误?调试器跟踪使问题看起来像是发生在 MPI_Finalize() 中。 .

最佳答案

这不是 MPI 问题。错误来自分配函数。您迭代的是列数而不是行数。

for (i = 0; i < cols; i++) {

应该是

for (i = 0; i < rows; i++) {

来匹配上面的 malloc。您分配了 4 行,但迭代了 16 列。

关于c - MPI 偶发错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26793659/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com