c - MPI 中的矩阵乘法-6ren

c - MPI 中的矩阵乘法

转载作者：太空宇宙更新时间：2023-11-03 23:41:39

我正在尝试使用 1、2、4 或 8 个处理器使用 MPI 创建一个简单的矩阵乘法程序。我的代码适用于 1(在这种情况下，它只进行正常的矩阵乘法，我的意思是，如果你只在一个等级上运行，就没有工作可以拆分)。它还适用于 2 和 4 处理器。但是，当我尝试使用 8 个处理器时(即运行程序时命令行上的 -n 8)，我没有在矩阵 c 的所有位置上获得正确的值。

这里有例子:如果SIZE = 8(即a和b和c都是8x8的矩阵)，得到的矩阵如下:

   8.00   8.00   8.00   8.00   8.00   8.00   8.00   8.00
   8.00   8.00   8.00   8.00   8.00   8.00   8.00   8.00
   8.00   8.00   8.00   8.00   8.00   8.00   8.00   8.00
   8.00   8.00   8.00   8.00   8.00   8.00   8.00   8.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
   0.00   0.00  16.00  16.00  16.00  16.00  16.00  16.00

如果 SIZE = 16:

  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00  16.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
   0.00   0.00   0.00   0.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00
  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00  32.00

如您所见，零在左下角弹出。 Rank 7 所做的事情导致这些坐标变为 0。

我现在一直盯着自己的代码看，我觉得我只需要另一双眼睛看它们。据我所知，所有发送和接收都正常工作，所有不同的任务都获得了它们应有的值(value)。从我所做的测试来看，实际上没有任务给 c 矩阵中的任何位置赋予 0 值。我不知道为什么会发生，如何发生，也不知道我能做些什么来修复它。

代码如下:

#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>

#define SIZE 16 /*assumption: SIZE a multiple of number of nodes*/
#define FROM_MASTER 1/*setting a message type*/
#define FROM_WORKER 2/*setting a message type*/
#define DEBUG 1/*1 = debug on, 0 = debug off*/

MPI_Status status;

static double a[SIZE][SIZE];
static double b[SIZE][SIZE];
static double c[SIZE][SIZE];
static double b_to_trans[SIZE][SIZE];
static void init_matrix(void)
{
    int i, j;
    for (i = 0; i < SIZE; i++)
    {
        for (j = 0; j < SIZE; j++) {
            a[i][j] = 1.0;
            if(i >= SIZE/2) a[i][j] = 2.0;
            b_to_trans[i][j] = 1.0;
            if(j >= SIZE/2) b[i][j] = 2.0;
//          c[i][j] = 1.0;
        }
    }
}

static void print_matrix(void)
{
    int i, j;
    for(i = 0; i < SIZE; i++) {
        for(j = 0; j < SIZE; j++) {
            printf("%7.2f", c[i][j]);
        }
    printf("\n");
    }
}

static void transpose_matrix()
{
    int i, j;
    for(i = 0; i<SIZE; i++)
        for(j = 0; j<SIZE;j++)
            b[i][j] = b_to_trans[j][i];
}

int main(int argc, char **argv)
{
    int myrank, nproc;
    int rows; /*amount of work per node (rows per worker)*/
    int mtype; /*message type: send/recv between master and workers*/
    int dest, src, offseta, offsetb;
    int runthrough, runmod;
    double start_time, end_time;
    int i, j, k, l;

    MPI_Init(&argc, &argv);
    MPI_Comm_size(MPI_COMM_WORLD, &nproc);
    MPI_Comm_rank(MPI_COMM_WORLD, &myrank);
    rows = SIZE/nproc;
    mtype = FROM_MASTER;

    if (myrank == 0) {
        /*Initialization*/
        printf("SIZE = %d, number of nodes = %d\n", SIZE, nproc);
        init_matrix();
        transpose_matrix();
        start_time = MPI_Wtime();

        if(nproc == 1) { /*In case we only run on one processor, the master will simply do a regular matrix-matrix multiplacation.*/
            for(i = 0; i < SIZE; i++) {
                for(j = 0; j < SIZE; j++) {
                    for(k = 0; k < SIZE; k++)
                        c[i][j] = c[i][j] + a[i][k]*b[j][k];
                }
            }
            end_time = MPI_Wtime();
            if(DEBUG) /*Prints the resulting matrix c*/
                print_matrix();
            printf("Execution time on %2d nodes: %f\n", nproc, end_time-start_time);
        }
        else {

            for(l = 0; l < nproc; l++){
                offsetb = rows*l;
                offseta = rows;
                mtype = FROM_MASTER;

                for(dest = 1; dest < nproc; dest++){
                    MPI_Send(&offseta, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);
                    MPI_Send(&offsetb, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);
                    MPI_Send(&rows, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);
                    MPI_Send(&a[offseta][0], rows*SIZE, MPI_DOUBLE, dest, mtype, MPI_COMM_WORLD);
                    MPI_Send(&b[offsetb][0], rows*SIZE, MPI_DOUBLE, dest, mtype, MPI_COMM_WORLD);
                    offseta += rows;
                    offsetb = (offsetb+rows)%SIZE;
                }

                offseta = rows;
                offsetb = rows*l;
                //printf("Rank: %d, offseta: %d, offsetb: %d\n", myrank, offseta, offsetb);
                //printf("Offseta: %d\n", offseta);
                //printf("Offsetb: %d\n", offsetb);
                for(i = 0; i < offseta; i++) {
                    for(j = offsetb; j < offsetb+rows; j++) {
                            for(k = 0; k < SIZE; k++){
                                c[i][j] = c[i][j] + a[i][k]*b[j][k];
                        }
                    }
                }
                mtype = FROM_WORKER;
                for(src = 1; src < nproc; src++){
                    MPI_Recv(&offseta, 1, MPI_INT, src, mtype, MPI_COMM_WORLD, &status);
                    MPI_Recv(&offsetb, 1, MPI_INT, src, mtype, MPI_COMM_WORLD, &status);
                    MPI_Recv(&rows, 1, MPI_INT, src, mtype, MPI_COMM_WORLD, &status);
                    for(i = 0; i < rows; i++) {
                        MPI_Recv(&c[offseta+i][offsetb], offseta, MPI_DOUBLE, src, mtype, MPI_COMM_WORLD, &status); /*returns answer c(1,1)*/
                    }
                }
            }


            end_time = MPI_Wtime();
            if(DEBUG) /*Prints the resulting matrix c*/
                print_matrix();
            printf("Execution time on %2d nodes: %f\n", nproc, end_time-start_time);
        }
    }
    else{
        if(nproc > 1) {
            for(l = 0; l < nproc; l++){
                mtype = FROM_MASTER;
                MPI_Recv(&offseta, 1, MPI_INT, 0, mtype, MPI_COMM_WORLD, &status);
                MPI_Recv(&offsetb, 1, MPI_INT, 0, mtype, MPI_COMM_WORLD, &status);
                MPI_Recv(&rows, 1, MPI_INT, 0, mtype, MPI_COMM_WORLD, &status);
                MPI_Recv(&a[offseta][0], rows*SIZE, MPI_DOUBLE, 0, mtype, MPI_COMM_WORLD, &status);
                MPI_Recv(&b[offsetb][0], rows*SIZE, MPI_DOUBLE, 0, mtype, MPI_COMM_WORLD, &status);

                for(i = offseta; i < offseta+rows; i++) {
                    for(j = offsetb; j < offsetb+rows; j++) {
                        for(k = 0; k < SIZE; k++){
                            c[i][j] = c[i][j] + a[i][k]*b[j][k];
                        }
                    }
                }

                mtype = FROM_WORKER;
                MPI_Send(&offseta, 1, MPI_INT, 0, mtype, MPI_COMM_WORLD);
                MPI_Send(&offsetb, 1, MPI_INT, 0, mtype, MPI_COMM_WORLD);
                MPI_Send(&rows, 1, MPI_INT, 0, mtype, MPI_COMM_WORLD);
                for(i = 0; i < rows; i++){
                    MPI_Send(&c[offseta+i][offsetb], offseta, MPI_DOUBLE, 0, mtype, MPI_COMM_WORLD);
                }
            }
        }
    }
    MPI_Finalize();
    return 0;
}

任何建议都会有所帮助，在此先感谢您。

最佳答案

这不是一个确定的答案，但肯定会帮助您进行调试。

我通过在 master 从 workers 接收最终数据的地方添加以下代码来进行测试。在一堆输出中，我只显示重要的。请注意，j+count 永远不会超过 SIZE，处理器数量为 8 时除外。这很重要，因为您写入的是未分配的内存。

for(i = 0; i < rows; i++) {
    MPI_Recv(&c[offseta+i][offsetb], offseta, MPI_DOUBLE, src, mtype, MPI_COMM_WORLD, &status);
    // I added the following for debugging.            
    if (src == nproc-1)
    {
        printf("src = %i\n", src);
        printf("i = %i\n", offseta+i);
        printf("j = %i\n", offsetb);
        printf("count = %i\n", offseta);
    }
}

np = 2

src = 1
i = 15
j = 8
count = 8

np = 4

src = 3
i = 15
j = 4
count = 12

np = 8

src = 7
i = 15
j = 10
count = 14

关于c - MPI 中的矩阵乘法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43942538/

文章推荐： java - 通过 void** 参数作为 char[] 与 JNA 获取函数结果

文章推荐： c# - 如何在Richtextbox的每一行的开头添加一个字符

文章推荐： c# - 如何从方法 C# 中获取字符串值

文章推荐： html - 如何使用百分比划分 HTML 表格

mpi - 将 MPI 等级数推广到 MPI 组？
是否有等级编号对组编号的概括？对于我的代码，我想创建 MPI::COMM_WORLD 的分层分解。假设我们使用 16 个线程。我使用 MPI::COMM_WORLD.Split 创建 4 个通信器，每
mpi - 如何在多个节点中运行 MPI-Job？ (多节点 MPI 作业执行)
能够使用多个节点执行 MPI 作业以加快流程这是我目前使用的命令: mpirun --hostfile myhost -np 2 --map-by slot Job.x//只在第一个节点执行 mpi
mpi - 新的通信器无效的 MPI
我想创建一个新的通信器，它只保留处理中使用的行列，如果我有 24 个可用处理器而我只需要 10 个，那么该组应该只保留这 10 个，否则它将保留所有他们。出于某种原因，当我尝试创建一个通信器时，一切都
mpi - OpenMP 和 MPI 混合程序比纯 MPI 更快吗？
我正在开发一些程序，而不是在每个节点上有 4 个内核的 4 节点集群上运行。我有一个非常快的 OpenMP 版本的程序，它只在一个集群上运行，我正在尝试使用 MPI 扩展它。由于我的经验有限，我想知道
mpi - MPI 中的图像处理
这是我尝试在 MPI 中编写经典平滑像素平均算法的代码。我几乎让它工作了，但是光晕交换发生了一些奇怪的事情，因为可以看到边缘的线条。我似乎找不到错误。我是否正确地交换了光环？我应该收集最终数组的哪一部
mpi - 事件驱动的 MPI
我有兴趣使用 MPI(消息传递接口(interface))实现一种事件驱动的调度队列。我要解决的基本问题是:我有一个主进程，它将作业插入全局队列，每个可用的从进程检索队列中的下一个作业(如果有的话)。
mpi - MPI 运行时系统分配的进程的物理位置
当我们在集群上使用命令 say mpirun -np 4 a.out 启动 MPI 程序时，然后MPI 运行时系统如何跨 CPU 分配进程？我的意思是，假设它在集群中找到一个空闲的四核 CPU，它会
mpi - MPI 进程是如何启动的？
使用 mpirun 启动 MPI 作业时或 mpiexec ，我可以理解人们如何开始每个单独的过程。但是，如果没有任何编译器魔法，这些包装器可执行文件如何将安排(MPI 通信器)传达给 MPI 进程？
mpi - MPI 中的等级和进程有什么区别？
MPI 中的等级和进程有什么区别？最佳答案 Here是我从中学习所有 MPI 的资源，您可能会发现它很有用。关于你的问题:流程是正在运行的程序的实际实例。 MPI 允许您创建逻辑团体进程，并且
mpi - MPI 障碍的复杂性
MPI 障碍的时间复杂度是多少？它们是否可以扩展到大量核心(>> 10k)？最佳答案屏障复杂性与实现高度相关。它可以是线性的，可以是对数的，也可以是更好或更差。某些架构为某些集体操作提供专用网络，
mpi - MPI 死锁
我正在尝试 MPI，想知道这段代码是否会导致死锁。 MPI_Comm_rank (comm, &my_rank); if (my_rank == 0) { MPI_Send (sendbuf,
mpi - MPI 进程数可以超过节点上的逻辑处理器数
我有一个简单的 MPI 代码，可以打印出进程的等级，使用 Intel 编译器和 MPI 库进行编译和链接。然后我在集群的主节点上以交互方式运行它:mpiexec -n 50 ./a.out该节点只有
mpi - 在 open-mpi/mpi-run 中加载共享库
我正在尝试使用 mpi run 使用扭矩调度程序来运行我的程序。虽然在我的 pbs 文件中我通过加载了所有库 export LD_LIBRARY_PATH=/path/to/library 但它给出
mpi - 使用 MPI 合并所有等级的数组
我在所有等级上都有一个相同长度的数组(假设为 10)。数组中的某些值包含处理器的等级。例如 ... Proc 1: [1 0 0 0 0 1 0 0 0 1] Proc 2: [0 2 2 0 0 0
mpi - 按主机对 MPI 任务进行分组
我想在集群中的每台机器上独立地轻松执行集体通信。假设我有 4 台机器，每台机器有 8 个内核，我的 MPI 程序将运行 32 个 MPI 任务。对于给定的功能，我想要的是: 在每个主机上，只有一个任务
mpi - 有没有办法在 MPI 中获取唯一的通信器标识符？
我希望能够获得某个通信器的唯一 ID，但是当您通过 MPI_Comm_split() 调用获得此通信器时，这似乎是一项不可能完成的任务。我知道什么时候 MPI_Comm_split() 被集体调用，每
mpi - 非阻塞 MPI 调用的抽象实现
非阻塞发送/接收立即在 MPI 中返回，操作在后台完成。我看到这种情况发生的唯一方法是当前进程/线程调用/创建另一个进程/线程并将发送/接收代码的图像加载到其中并返回。然后这个新进程/线程完成这个操作
mpi - MPI I/O 是如何实现的？
冗长的背景我正在为心脏电生理学模拟并行处理一些代码。由于用户可以使用内置脚本语言指定他们自己的模拟，我无法知道如何在通信与计算之间进行权衡。为了解决这个问题，我正在制作一种运行时分析器，一旦看到要运
mpi - 使用 MPI 指定运行程序的机器
我打算做一些并行计算，我完全是这方面的初学者。我将使用 MPI 来完成并行工作，采用 Master-Slave 模型。我现在有四台机器，希望其中一台作为主节点。但是，我不知道如何指定运行该程序的其他机
mpi - 我们可以在单个系统中运行 MPI 程序还是必须只在集群中运行它？
我可以在我的大学使用 PelicanHPC 访问集群网络，其中运行各种 MPI 程序，但在家里我想练习编写/使用其他 MPI 程序。有没有办法在我自己的系统上运行 MPI 程序？ (我在 Ubuntu

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - MPI 中的矩阵乘法