c++ - 如何优化矩阵乘法 (matmul) 代码以在单个处理器内核上快速运行-6ren

c++ - 如何优化矩阵乘法 (matmul) 代码以在单个处理器内核上快速运行

转载作者：塔克拉玛干更新时间：2023-11-02 23:15:54

24

4

我正在研究并行编程概念并尝试优化单核上的矩阵乘法示例。到目前为止，我想出的最快的实现如下:

/* This routine performs a dgemm operation
 *  C := C + A * B
 * where A, B, and C are lda-by-lda matrices stored in column-major format.
 * On exit, A and B maintain their input values. */    
void square_dgemm (int n, double* A, double* B, double* C)
{
  /* For each row i of A */
  for (int i = 0; i < n; ++i)
    /* For each column j of B */
    for (int j = 0; j < n; ++j) 
    {
      /* Compute C(i,j) */
      double cij = C[i+j*n];
      for( int k = 0; k < n; k++ )
          cij += A[i+k*n] * B[k+j*n];
      C[i+j*n] = cij;
    }
}

结果如下。如何减少循环并提高性能

login4.stampede(72)$ tail -f job-naive.stdout
Size: 480       Mflop/s:  1818.89       Percentage: 18.95
Size: 511       Mflop/s:  2291.73       Percentage: 23.87
Size: 512       Mflop/s:  937.061       Percentage:  9.76
Size: 639       Mflop/s:  293.434       Percentage:  3.06
Size: 640       Mflop/s:  270.238       Percentage:  2.81
Size: 767       Mflop/s:  240.209       Percentage:  2.50
Size: 768       Mflop/s:  242.118       Percentage:  2.52
Size: 769       Mflop/s:  240.173       Percentage:  2.50
Average percentage of Peak = 22.0802
Grade = 33.1204

最佳答案

CPU 上最先进的矩阵乘法实现使用 GotoBLAS算法。基本上，循环按以下顺序组织:

Loop5 for jc = 0 to N-1 in steps of NC
Loop4   for kc = 0 to K-1 in steps of KC
          //Pack KCxNC block of B
Loop3     for ic = 0 to M-1 in steps of MC
            //Pack MCxKC block of A
//--------------------Macro Kernel------------
Loop2       for jr = 0 to NC-1 in steps of NR
Loop1         for ir = 0 to MC-1 in steps of MR
//--------------------Micro Kernel------------
Loop0           for k = 0 to KC-1 in steps of 1
                //update MRxNR block of C matrix

矩阵乘法现代高性能实现的一个关键见解是通过将操作数划分为时间局部性的 block (3 个最外层循环)来组织计算，并打包(复制)这些 block 放入适合空间局部性的不同内存级别的连续缓冲区(3 个最内层循环)。

上图(来源于this paper，直接用于this tutorial)说明了BLIS中实现的GotoBLAS算法。 .缓存阻塞参数 {MC, NC, KC} 确定Bp (KC × NC) 和 Ai (MC × KC) 的子矩阵大小，以便它们适合各种缓存。在计算过程中，行面板 Bp被连续打包到缓冲区 Bp 中以适应 L3 缓存。 block Ai 被类似地打包到缓冲区 Ai 中以适应二级缓存。寄存器 block 大小 {MR, NR} 与寄存器中对 C 有贡献的子矩阵有关。在微内核(最内层循环)中，C 的一个小 MR × NR 微 block 由 MR × KC 和 KC 对更新× Ai 和 Bp 的 NR 条。

对于 O(N^2.87) 复杂度的 Strassen 算法，您可能有兴趣阅读 this paper .其他渐近复杂度小于 O(N^3) 的快速矩阵乘法算法可以在 this paper 中轻松扩展.有一个 recent thesis关于实用的快速矩阵乘法算法。

如果您想详细了解如何在 CPU 上优化矩阵乘法，以下教程可能会对您有所帮助:

How to Optimize GEMM Wiki

GEMM: From Pure C to SSE Optimized Micro Kernels

BLISlab: A sandbox for optimizing GEMM for CPU and ARM

有关如何在 CPU 上(使用 AVX2/FMA)逐步优化 GEMM 的最新文档可在此处下载: https://github.com/ULAFF/LAFF-On-HPC/blob/master/LAFF-On-PfHP.pdf

将于 2019 年 6 月开始在 edX 上提供大规模开放式在线类(class)(LAFF-On Programming for High Performance): https://github.com/ULAFF/LAFF-On-HPC http://www.cs.utexas.edu/users/flame/laff/pfhp/LAFF-On-PfHP.html

关于c++ - 如何优化矩阵乘法 (matmul) 代码以在单个处理器内核上快速运行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35401524/

24

4

0

文章推荐： android - 这是一个 ListView ，以及如何做到这一点

文章推荐： linux - 哇 |为什么长度不对？

文章推荐： c - printf ("%d"的输出)没有附加参数

python - 为什么 tf.matmul(a,b, transpose_b=True) 有效，但 tf.matmul(a, tf.transpose(b)) 无效？
代码: x = tf.constant([1.,2.,3.], shape = (3,2,4)) y = tf.constant([1.,2.,3.], shape = (3,21,4)) tf.ma
python - 无效参数错误 : cannot compute MatMul as input #0(zero-based) was expected to be a float tensor but is a double tensor [Op:MatMul]
有人可以解释一下，TensorFlow 的 eager 模式是如何工作的吗？我正在尝试构建一个简单的回归，如下所示: import tensorflow as tf tfe = tf.contrib.
python - 值错误 : Shape must be rank 2 but is rank 1 for 'MatMul' (op: 'MatMul' ) with input shapes: [2], [2,3]
我对 Tensorflow 很陌生。我已经在搜索相同的问题，但我不明白。有代码。希望你能帮助我。代码: import tensorflow as tf w1 = tf.Variable(tf.ran
python - matmul 和通常的张量乘法有区别吗
我对使用 * 和 matmul 的两个张量之间的乘法感到困惑。下面是我的代码 import torch torch.manual_seed(7) features = torch.randn((2,
python - 不同等级的 Matmul
我有 3 个张量 X 形状(1, c, h, w)，假设(1, 20, 40, 50) Fx 形状(num, w, N)，假设(1000, 50, 10) Fy shape (num, N, h)，假
不同乘法大小的 Fortran matmul 函数的次数
我已经计算了 Fortran 的 MATMUL 函数使用不同乘法大小(32 × 32、64 × 64，...)花费的时间，我对结果有疑问。这些是结果: SIZE ----- TIME IN SECO
numpy - 理解一维向量上的 np.matmul
a = [1, 2, 3] b = [10, 10, 10] np.matmul(a, b) 结果是 60。 numpy 如何乘以 (3,) 和 (3,) 维度并返回点积而不是外积(3 * 3)或抛出
machine-learning - Matmul 输入和权重矩阵顺序？
我看到许多机器学习教程通过构造两个矩阵、权重矩阵和输入(或激活)矩阵来解释全连接网络，并执行矩阵到矩阵乘法(matmul)以形成线性方程。我看到的所有示例都将输入作为 matmul 的第一个参数，将
python - Numpy matmul - 当前不支持对象数组
当我在代码中的某行调用 np.matmul 时出现此错误。这是我在解决 python 调试器错误时得到的信息: > /home/marcos/Desktop/Machine_Learning_for_
python - 广播具有动态形状的 tf.matmul
我想在等级 2 和等级 3 的两个张量之间广播 tf.matmul 运算，其中一个包含“未知”形状的维度(基本上是特定维度中的“无”值) )。问题是动态尺寸 tf.reshape 和 tf.broa
python - tf.matmul 没有按预期工作
我尝试在 tensorflow 中编写和(逻辑运算)，有两个输入和两个权重将它们相乘得到一个数字并将这个数字加到偏差中，我在 matmul 中的问题是发送 X(输入)和 W(权重) 以方法形。[[1]
c++ - 如何优化矩阵乘法 (matmul) 代码以在单个处理器内核上快速运行
我正在研究并行编程概念并尝试优化单核上的矩阵乘法示例。到目前为止，我想出的最快的实现如下: /* This routine performs a dgemm operation * C := C
python - Tensorflow - 具有批处理数据的输入矩阵的 matmul
我有一些由 input_x 表示的数据。它是一个未知大小的张量(应该批量输入)，每个项目的大小为 n。 input_x 经历 tf.nn.embedding_lookup，因此 embed 现在具有维
python - @ 用于 matmul/inner，什么用于外积？
在 Python 中，@ 运算符传递给元素的 __matmul__ 属性。当实现一个与实际后端无关的方法时，这会派上用场。例如 def inner(x, y): return x @ y
python - "@"运算符和 np.matmul() 之间的差异
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 提供事实和引用来回答它. 关闭 2 年前。 Improve
tensorflow - 如何使用 tf.matmul 执行高效的稀疏矩阵乘法？
我正在尝试使用 tf.matmul() 执行稀疏矩阵乘法。但是，推理速度比密集矩阵乘法慢得多。根据 tf.sparse_matmul() 中的描述: 在一个平台上使用此乘法与密集矩阵相乘的盈亏平衡
tensorflow - TensorFlow 中没有广播 tf.matmul
我有一个我一直在努力解决的问题。与 tf.matmul() 相关并且没有广播。我在 https://github.com/tensorflow/tensorflow/issues/216 上发现了类
python - 如何向量化 scatter-matmul 运算
我有许多带有形状的矩阵 w1、w2、w3...wn (k*n1 、k*n2、k*n3...k*nn) 和 x1、x2、x3...xn 具有形状(n1*m、n2*m、n3*m...nn*m >). 我想
python - Tensorflow tf.matmul 示例不正确？
我阅读了tf.matmul的官方文档我理解第一个例子。这是一个简单的 [2,3] x [3,2] 操作: a = tf.constant([1, 2, 3, 4, 5, 6], shape=[2, 3
python - TensorFlow 中的 MatMul 问题
我正在尝试使用 4D-numpy 数组数据在 TensorFlow 中实现多层感知器我在 MatMul 函数上遇到了这个问题。我希望有人能在这里帮助我，非常感谢。 ValueError: Shape

首页

博学

6Ren·AI

商城

c++ - 如何优化矩阵乘法 (matmul) 代码以在单个处理器内核上快速运行