matrix - 使用 CUDA 进行动态矩阵乘法-6ren

matrix - 使用 CUDA 进行动态矩阵乘法

转载作者：行者123 更新时间：2023-12-02 07:42:56

我一直试图编写的简单程序的想法是从用户那里获取输入以查看要乘以多大的矩阵。

我希望将输入 x 乘以 x，我目前不希望将两种不同的大小相乘。

你们建议我如何完成这项工作？

对不起，我的问题不够清楚，我想修改这个内核，以便它可以处理任何大小的矩阵(其中 x 和 y 是等价的，以保持简单)。而不是 16 的倍数。

我不确定您是否需要我当前的代码，但这是内核代码:

// CUDA Kernel
__global__ void matrixMul( float* C, float* A, float* B, int wA, int wB,size_t block_size)
{
    int bx = blockIdx.x;
    int by = blockIdx.y;
    int tx = threadIdx.x;
    int ty = threadIdx.y;

    int aBegin = wA * block_size * by;
    int aEnd   = aBegin + wA - 1;
    int aStep  = block_size;

    int bBegin = block_size * bx;

    int bStep  = block_size * wB;
    float Csub=0;

    for (int a = aBegin, b = bBegin; a <= aEnd; a += aStep, b += bStep) 
    {
        extern __shared__ float As[];
        extern __shared__ float Bs[];
        extern __shared__ float smem[];

        smem[ty*block_size+tx] = A[a + wA * ty + tx];

        smem[block_size*block_size+ty*block_size+tx]  = B[b + wB * ty + tx];

        __syncthreads();

        for (int k = 0; k < block_size; ++k)
            Csub += smem[ty*block_size+k] * smem[block_size*block_size+k*block_size+tx] ;

        __syncthreads();
    }

    int c = wB * block_size * by + block_size * bx;
    C[c + wB * ty + tx] = Csub;


}

更新:我决定使用零填充。但是我得到不正确的答案。取矩阵 A 2x2，填充到 16x16:

5.000 0.000 9.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

矩阵 B，2x2 填充到 16x16:

7.000 4.000 8.000 7.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

所以我得到的 C 的结果是正确的:

35.000 20.000 40.000 35.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000
 0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000  0.000

然而，如果你去掉零，矩阵应该是:答:

5.000 0.000
9.000 0.000

乙:

7.000 4.000
8.000 7.000

C 应该是:

35.000 20.000
63.000 36.000

然而，这两个矩阵 C 并不相同。

最佳答案

这不是一个非常明确的问题，因此这个答案是基于您之前在几个相当相似的问题中提出的问题的猜测。

要理解如何进行此类运算，一个很好的起点是回到起点，从第一性原理考虑矩阵-矩阵乘法问题。您对计算两个矩阵 C = AB 的点积的代码感兴趣。您的限制是您使用的内核只能计算矩阵的乘积，这些矩阵是某个内部 block 大小的整数倍。那你能做什么？

看待这个问题的一种方法是想象A 和B 矩阵是block matrices .矩阵乘法可以这样写:

enter image description here

然后可以通过 A 和 B 中的八个子矩阵的乘积组合形成生成的矩阵 C:

enter image description here

这对解决问题的帮助可能不是很明显，但让我们考虑一个具体的例子:

您有一个最佳矩阵乘法内核，它使用内部 block 大小 32，并且仅当矩阵是该 block 大小的整数倍时才正确。
你有一对 1000x1000 的方阵要相乘。

这些第一个事实意味着您的内核只能正确解决 1024x1024 产品或 992x992 产品，但不能解决您需要的 1000x1000 操作。

如果你决定使用 1024x1024 的产品，你可以使用 block 分解的思想来制定这样的问题:

enter image description here

其中 O_nn 表示适当大小的零矩阵。现在您有一对 1024x1024 矩阵，它们的乘积将导致

enter image description here

即。左手边，上面的 block 是一个包含 AB 的 1000x1000 矩阵。这实际上是零填充以实现正确的结果。在此示例中，这意味着执行的计算比所需的多大约 7%。重要与否可能取决于具体应用。

第二种方法是使用基本内核计算一个 992x992 产品，然后制定一个策略来处理 block 分解版本计算中的其他七个产品，如下所示:

enter image description here

A₁₁ 和 B₁₁ 是 992x992 矩阵，O _nn 和以前一样是零矩阵。乍一看，这看起来不是很有帮助，但值得记住的是，所有使右侧矩阵的计算仅包含计算矩阵乘积所需的总计算的大约 1.2%。它们可以在 GPU 进行主要计算时在主机 CPU 上轻松完成，然后添加到 GPU 结果以形成最终矩阵。因为 CUDA API 是异步的，所以大部分主机计算都可以完全隐藏并且实际上是免费的。

此答案包含两种策略，可以只更改当前内核代码的一行 来完成您的要求。显然还有第三种方法，即更彻底地修改内核本身，但这是您应该首先自己尝试的方法，如果您的解决方案不起作用，则寻求帮助。

关于matrix - 使用 CUDA 进行动态矩阵乘法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9250897/

文章推荐： Django - 在模板之前访问上下文字典

文章推荐： sql - 简单的sql : how do I group into separate columns?

文章推荐： ruby-on-rails - Rails 生产服务器缓存权限被 Nginx 拒绝

r - 矩阵 %in% 矩阵
假设我有两个矩阵，每个矩阵有两列和不同的行数。我想检查并查看一个矩阵的哪些对在另一个矩阵中。如果这些是一维的，我通常只会做 a %in% x得到我的结果。 match似乎只适用于向量。 > a
algorithm - 矩阵-矩阵乘法/矩阵-向量乘法有哪些不同类型的算法
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 个月前。 Improv
math - OpenGL 矩阵 VS DirectX 矩阵
我只处理过 DirectX 矩阵我读过一些文章，说不能将 DirectX 矩阵数学库用于 openGL 矩阵。但我也读过，如果你的数学是一致的，你可以获得类似的结果。那只会让我更加困惑。任何人都
c++ - 使用BLAS和OpenMP优化本征重组(矩阵-对角矩阵-矩阵)产品C++
我编写了一个C++代码来解决线性系统A.x = b，其中A是一个对称矩阵，方法是首先使用LAPACK(E)对角矩阵A = V.D.V^T(因为以后需要特征值)，然后求解x = A^-1.b = V^T
c++ - 动态创建一个 3x2 矩阵；打印它显示一个 2x2 矩阵
我遇到了问题。我想创建二维数组 rows=3 cols=2我的代码如下 int **ptr; int row=3; int col=2; ptr=new int *[col]; for (int i=
matlab - 从 3d 矩阵 Matlab 中获取 2d 矩阵
我有一个 3d mxnxt 矩阵，我希望能够提取 t 2d nxm 矩阵。在我的例子中，我有一个 1024x1024x10 矩阵，我想要 10 张图像显示给我。这不是 reshape ，我每次只需要
matlab - 将 3d 矩阵 reshape 为 2d 矩阵
我在 MATLAB 中有一个 3d 矩阵 (n-by-m-by-t) 表示一段时间内网格中的 n-by-m 测量值.我想要一个二维矩阵，其中空间信息消失了，只剩下 n*m 随着时间 t 的测量值(即:
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
c++ - 给定两个动态 R x C 矩阵，我如何交错行以生成一个 2R x C 矩阵？
使用 eigen2 , 并给定一个矩阵 A a_0_0, a_0_1, a_0_2, ... a_1_0, a_1_0, a_1_2, ... ... 和一个矩阵B: b_0_0, b_0_1, b_
html - 中型和大型设备上为 2 x 2 矩阵，小型设备上为 4 x 1 矩阵
我想知道如何获得下面的布局。在中型和大型设备上，我希望有 2 行和 2 列的布局(2 x 2 矩阵)。在小型(和超小型)设备上或调整为小型设备时，我想要一个 4 行和 1 列的矩阵。我将通过 a
matlab - 将(4D 矩阵 * 1D 向量)操作转换为独立的(3D 矩阵 * 0D 标量)操作，无需循环
有什么方法可以向量化以下内容: for i = 1:6 te = k(:,:,:,i).*(c(i)); end 我正在尝试将 4D 矩阵 k 乘以向量 c，方法是将其
随机抽样 - 矩阵
如何从填充有 1 和 0 的矩阵中抽取 n 个随机点的样本？ a=rep(0:1,5) b=rep(0,10) c=rep(1,10) dataset=matrix(cbind(a,b,c),nrow
JavaScript 矩阵
我正在尝试创建一个包含 X 个 X 的矩阵。以下代码生成从左上角到右下角的 X 对 Angular 线，而不是从右上角到左下角的 X 对 Angular 线。我不确定从哪里开始。是否应该使用新变量创建
Python 矩阵
我想在 python 中创建一个每行三列的矩阵，并能够通过任何一行对它们进行索引。矩阵中的每个值都是唯一的。据我所知，我可以设置如下矩阵: matrix = [["username", "name"
java如何创建不同对象的数组/矩阵
我有点迷茫我创建了一个名为 person 的类，它具有 age 和 name 属性(以及 get set 方法)。然后在另一个类中，我想创建一个 persons 数组，其中每个人都有不同的年龄和姓名
Java多维散列/矩阵
我有 n 个类，它们要么堆叠，要么不堆叠。所有这些类都扩展了同一个类 (CellObject)。我知道更多类将添加到此列表中，我想创建一种易于在一个地方操纵“可堆叠性”的方法。我正在考虑创建一个矩阵
Python模糊字符串匹配作为相关样式表/矩阵
我有一个包含 x 个字符串名称及其关联 ID 的文件。本质上是两列数据。我想要的是一个格式为 x x x 的相关样式表(将相关数据同时作为 x 轴和 y 轴)，但我想要 fuzzywuzzy 库的函
机器学习的数学基础--向量，矩阵
机器学习与传统编程的一个重要区别在于机器学习比传统编程涉及了更多的数学知识。不过，随着机器学习的飞速发展，各种框架应运而生，在数据分析等应用中使用机器学习时，使用现成的库和框架成为常态，似乎越来越不需
Julia 问题与结束，矩阵
当我在 julia 中输入这个错误跳转但我不知道为什么，它应该工作。/ julia> A = [1 2 3 4; 5 6 7 8; 1 2 3 4; 5 6 7 8] 4×4 Array{Int64,

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

matrix - 使用 CUDA 进行动态矩阵乘法