c++ - 稀疏 x 密集矩阵乘法性能效率低下-6ren

c++ - 稀疏 x 密集矩阵乘法性能效率低下

转载作者：塔克拉玛干更新时间：2023-11-03 00:43:05

45

4

上下文:我将 Eigen 用于人工神经网络，其中典型维度为每层约 1000 个节点。所以大部分操作是将大小为 ~(1000,1000) 的矩阵 M 与大小为 1000 的 vector 或一批 B vector 相乘，表示为矩阵大小 Bx1000。

训练神经网络后，我使用剪枝 - 这是一种常见的压缩技术，最终得到稀疏矩阵(非空参数的密度在 10% 到 50% 之间)。

目标:我想使用稀疏矩阵进行压缩，其次用于性能优化，但这不是主要目标

问题:我正在比较不同批量大小的稀疏矩阵乘法和密集矩阵乘法(仅计算乘法时间)的性能，我正在观察以下内容(使用 Eigen 3.2.8，MacBook Pro 64 位，不带 open_mp，并使用标准 g++):

当 B=1(矩阵 x vector )时 - 密度为 10% 或 30% 的稀疏矩阵运算比密集矩阵运算更有效 - 这似乎是预期的结果:执行的运算要少得多
对于 B=32:
- 密集矩阵运算所需的时间仅为 B=1 所需时间的约 10 倍 - 这很酷 - 它显示出一些矢量化效果吗？
- 稀疏矩阵运算所需的时间是 B=1 所需时间的 67 - 这意味着它的效率低于独立处理 32 个 vector

MxN multiplication time (ms) for M sparse/dense, and N of size 1000xB

Same numbers but showing the time per vector in a batch of different size for sparse and dense matrix. We see clearly the decrease of time for dense matrix when batch size increase, and the augmentation for sparse matrix showing some wrong. Normalized with time for B=1

代码:我将以下类型用于稀疏和密集矩阵:

typedef SparseMatrix<float> spMatFloat;
typedef Matrix<float, Dynamic, Dynamic, RowMajor> deMatRowFloat;

我要进行基准测试的操作如下:

o.noalias()=m*in.transpose();

其中 o 是一个密集矩阵 (1000xB)，m 是一个密集矩阵 (1000x1000) 或通过 m.sparseView( )，而in是一个稠密矩阵(Bx1000)

完整代码如下(20 个不同随机矩阵的平均时间，每个乘法运算 50 次)- B=32 和 B=1 的时间如下。

欢迎任何反馈/直觉!

batch   1   ratio   0.3 dense   0.32    sparse  0.29
batch   32  ratio   0.3 dense   2.75    sparse  15.01

#include <Eigen/Sparse>
#include <Eigen/Dense>
#include <stdlib.h>
#include <boost/timer/timer.hpp>

using namespace Eigen;
using namespace boost::timer;

typedef SparseMatrix<float> spMatFloat;
typedef Matrix<float, Dynamic, Dynamic, RowMajor> deMatRowFloat;

void bench_Sparse(const spMatFloat &m, const deMatRowFloat &in, deMatRowFloat &o) {
  o.noalias()=m*in.transpose();
}

void bench_Dense(const deMatRowFloat &m, const deMatRowFloat &in, deMatRowFloat &o) {
  o.noalias()=m*in.transpose();
}

int main(int argc, const char **argv) {
  float ratio=0.3;
  int iter=20;
  int batch=32;
  float t_dense=0;
  float t_sparse=0;

  deMatRowFloat d_o1(batch,1000);
  deMatRowFloat d_o2(batch,1000);
  for(int k=0; k<iter; k++) {
    deMatRowFloat d_m=deMatRowFloat::Zero(1000,1000);
    deMatRowFloat d_b=deMatRowFloat::Random(batch,1000);
    for(int h=0;h<ratio*1000000;h++) {
      int i=rand()%1000;
      int j=rand()%1000;
      d_m(i,j)=(rand()%1000)/500.-1;
    }
    spMatFloat s_m=d_m.sparseView();
    {
      cpu_timer timer;
      for(int k=0;k<50;k++) bench_Dense(d_m,d_b,d_o1);
      cpu_times const elapsed_times(timer.elapsed());
      nanosecond_type const elapsed(elapsed_times.system+elapsed_times.user);
      t_dense+=elapsed/1000000.;
    }
    {
      cpu_timer timer;
      for(int k=0;k<50;k++) bench_Sparse(s_m,d_b,d_o2);
      cpu_times const elapsed_times(timer.elapsed());
      nanosecond_type const elapsed(elapsed_times.system+elapsed_times.user);
      t_sparse+=elapsed/1000000.;
    }
  }
  std::cout<<"batch\t"<<batch<<"\tratio\t"<<ratio<<"\tdense\t"<<t_dense/50/iter<<"\tsparse\t"<<t_sparse/50/iter<<std::endl;
}

ggael 建议后的新结果:我尝试了不同的可能组合，发现在更改 M 和 B RowMajor/时确实存在巨大的性能差异上校。

总而言之，我对 M*B 感兴趣，其中 M 是 (1000,1000) 而 B 是 (1000,batch) :我有兴趣比较 M 稀疏/密集的性能以及批量增长时的性能。

我测试了 3 种配置:

M密集，B密集
M稀疏，B密集
M稀疏，B密集，但是M*B的乘法是逐列手动完成的

结果如下 - 其中数字是 B=32 的每列时间/B=1 的时间与矩阵 M 的比率，密度为 0.3:

最初报告的问题是最糟糕的情况(M ColMajor，B RowMajor)。对于(M RowMajor, B ColMajor)，在B=32和B=1之间有5倍的加速，稀疏矩阵的性能几乎等同于稠密矩阵。

最佳答案

在 Eigen 中，对于密集代数，矩阵- vector 和矩阵-矩阵乘积都经过高度优化，并充分利用了向量化。如您所见，矩阵-矩阵产品表现出更高的效率。这是因为矩阵-矩阵乘积可以通过增加算术运算次数与内存访问次数之间的比率以及利用内存缓存来进一步优化。

然后对于稀疏-密集产品，有两种策略:

一次处理密集的右侧一列，从而多次扫描稀疏矩阵。对于此策略，最好对密集矩阵(右侧和结果)使用列优先存储。在 Eigen 3.2 中，已通过手动扫描列来模拟此策略。
只扫描稀疏矩阵一次，处理密集右侧的行，得到最嵌套的循环。这是 Eigen 3.2 中的默认策略。在这种情况下，最好对密集矩阵 (Matrix<float,Dynamic,32,RowMajor>) 使用行优先存储。

最后，无论哪种情况，您都可以尝试对稀疏矩阵使用行优先和列优先存储，并确定稀疏矩阵的策略和存储顺序的哪种组合最适合您的情况。

关于c++ - 稀疏 x 密集矩阵乘法性能效率低下，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39547061/

45

4

0

文章推荐： android - ListView 和 ArrayAdapter

JavaRMI遇到的ConnectionrefusedtoHost:127.x.x.x/192.x.x.x/10.x.x.x问题解决方法
问题故障解决记录 -- Java RMI Connection refused to host: x.x.x.x .... 在学习JavaRMI时，我遇到了以下情况问题原因：可
haskell - 为什么 `f x = x x` 和 `g x = x x x x x` 有相同的类型
我正在玩 Rank-N-type 并尝试输入 x x .但我发现这两个函数可以以相同的方式输入，这很不直观。 f :: (forall a b. a -> b) -> c f x = x x g ::
java - 比较两个版本字符串(4.x.x.x、5.x.x.x)
这个问题已经有答案了: How do you compare two version Strings in Java? (31 个回答) 已关闭 8 年前。有谁知道如何在Java中比较两个版本字符串
java - x=20;x=++x+++x + x++ ;java中x的最终值为65
这个问题已经有答案了: How do the post increment (i++) and pre increment (++i) operators work in Java? (14 个回答)
linux - 如何获取完整的目标IP地址(x.x.x.x/x)netstat命令？
下面是带有 -n 和 -r 选项的 netstat 命令的输出，其中目标字段显示压缩地址 (127.1/16)。我想知道 netstat 命令是否有任何方法或选项可以显示整个目标 IP (127.1.
logic - 我如何根据精益原则证明 (∀ x, ¬ A x) → ¬ ∃ x, A x？
我知道要证明 : (¬ ∀ x, p x) → (∃ x, ¬ p x) 证明是: theorem : (¬ ∀ x, p x) → (∃ x, ¬ p x) := begin intro n
c++ - x*x != x*x 在自动变量中？
x * x 如何通过将其存储在“auto 变量”中来更改？我认为它应该仍然是相同的，并且我的测试表明类型、大小和值显然都是相同的。但即使 x * x == (xx = x * x) 也是错误的。什么
c# - 如何将表达式 x=>!x 重写为 x=>x!=true 并将 x=>x 重写为 x=>x==true
假设，我们这样表达: someIQueryable.Where(x => x.SomeBoolProperty) someIQueryable.Where(x => !x.SomeBoolProper
regex - 为什么正则表达式引擎选择从 `..X` 匹配模式 `.X|..X|X.`？
我有一个字符串 1234X5678 我使用这个正则表达式来匹配模式 .X|..X|X. 我得到了 34X 问题是为什么我没有得到 4X 或 X5？为什么正则表达式选择执行第二种模式？最佳答案这里
javascript - 可以 (x++ !== x) && (x++ === x);返回真？
我的一个 friend 在面试时遇到了这个问题找到使该函数返回真值的 x 值 function f(x) { return (x++ !== x) && (x++ === x); } 面试官
java - 为什么通常 Map = new HashMap() 而不是 HashMap = new HashMap()？
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Isn't it easier to work with foo when it is represented b
针对多个版本的 Android 应用程序开发，即 1.x、2.x.x、3.x.x、4.x.x
我是 android 的新手，我一直在练习开发一个针对 2.2 版本的应用程序，我需要帮助了解如何将我的应用程序扩展到其他版本，即 1.x、2.3.x、3 .x 和 4.x.x，以及一些针对屏幕分辨率
x = [x] && x.push(x) when var x; 之间的 javascript 数组混淆
为什么案例 1 给我们 :error: TypeError: x is undefined on line... //case 1 var x; x.push(x); console.log(x);
python - Python 列表中 x += x 和 x = x + x 的区别
代码优先: # CASE 01 def test1(x): x += x print x l = [100] test1(l) print l CASE01 输出: [100, 100
java - 如何确定看起来像这样的大 O : (x -1) + (x - 2) + (x - 3) . .. (x - x)
我正在努力温习我的大计算。如果我有将所有项目移至 'i' 2 个空格右侧的函数，我有一个如下所示的公式: (n -1) + (n - 2) + (n - 3) ... (n - n) 第一次迭代我必须
javascript - 从 IP 字符串计算 IP 范围等于 x.x.x.x/x
给定 IP 字符串(如 x.x.x.x/x)，我如何或将如何计算 IP 的范围最常见的情况可能是 198.162.1.1/24但可以是任何东西，因为法律允许的任何东西。我要带198.162.1.1/
javascript - 为什么 var x = x = x || {} 比 var x = x || 更彻底{}？
在我作为初学者努力编写干净的 Javascript 代码时，我最近阅读了 this article当我偶然发现这一段时，关于 JavaScript 中的命名空间: The code at the ve
javascript - var x = x || {}；与 x = window.x || {}；
我正在编写一个脚本，我希望避免污染 DOM 的其余部分，它将是一个用于收集一些基本访问者分析数据的第 3 方脚本。我通常使用以下内容创建一个伪“命名空间”: var x = x || {}; 我正在
docker - create_network():无法分配网关(x.x.x.x):该地址已在测试用例中使用
我尝试运行我的test_container_services.py套件，但遇到了以下问题： docker.errors.APIError：500服务器错误：内部服务器错误（“ b'{” message
c# - "x as X != null"和 "x is X"总是返回相同的结果吗？
是否存在这两个 if 语句会产生不同结果的情况？ if(x as X != null) { // Do something } if(x is X) { // Do something } 编

首页

博学

6Ren·AI

商城

c++ - 稀疏 x 密集矩阵乘法性能效率低下