c - MKL 是否为*主要订单优化 cblas？-6ren

c - MKL 是否为*主要订单优化 cblas？

转载作者：太空狗更新时间：2023-10-29 14:58:45

34

4

我正在使用 mkl cblas_dgemm，目前它与 CblasRowMajor、CblasNoTrans、CblasNotrans，用于我的矩阵。

我知道 c 是行主要语言，而 dgemm 是列主要算法。我很想知道如果我链接到 mkl，切换矩阵的顺序是否会对 cblas_dgemm 算法产生任何影响。 mkl 是否足够聪明，可以在幕后做一些我想做的事情来优化矩阵乘法？如果不是，使用 mkl 执行矩阵乘法的最佳方法是什么？

最佳答案

TL;DR:简而言之使用行优先或列优先排序执行矩阵-矩阵乘法并不重要使用 MKL(和其他 BLAS 实现)。

I know that c is a row major language, whereas dgemm is a column major algorithm.

DGEMM 不是列优先算法，它是用于计算矩阵与一般矩阵的矩阵乘积的 BLAS 接口(interface)。 DGEMM(和大多数 BLAS)的通用引用实现是 Netlib's这是用 Fortran 语言编写的。它采用列优先排序的唯一原因是因为 Fortran 是一种列优先排序语言。 DGEMM(以及相应的 BLAS Level 3 函数)不是专门用于column-major数据。

DGEMM 计算什么？

基础数学中的 DGEMM 执行二维 matrix-matrix multiplication .标准二维矩阵相乘算法要求您沿行遍历一个矩阵，沿列遍历另一个矩阵。要执行矩阵-矩阵乘法，AB = C，我们会将 A 的行乘以 B 产生 C。因此，输入矩阵的顺序无关紧要，因为一个矩阵必须沿其行遍历，另一个矩阵必须沿其列遍历。

使用 MKL 研究行优先和列优先 DGEMM 计算

英特尔 MKL 非常智能，可以在底层利用这一点，并为行优先 和列优先 数据提供完全相同的性能。

cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, ...);
和

cblas_dgemm(CblasColMajor, CblasNoTrans, CblasNoTrans, ...);
将以类似的性能执行。我们可以用一个相对简单的程序来测试一下

#include <float.h> #include <mkl.h> #include <omp.h> #include <stdio.h> void init_matrix(double *A, int n, int m, double d); void test_dgemm(CBLAS_LAYOUT Layout, double *A, double *B, double *C, const MKL_INT m, const MKL_INT n, const MKL_INT k, int nSamples, double *timing); void print_summary(const MKL_INT m, const MKL_INT n, const MKL_INT k, const int nSamples, const double *timing); int main(int argc, char **argv) { MKL_INT n, k, m; double *a, *b, *c; double *timing; int nSamples = 1; if (argc != 5){ fprintf(stderr, "Error: Wrong number of arguments!\n"); fprintf(stderr, "usage: %s mMatrix nMatrix kMatrix NSamples\n", argv[0]); return -1; } m = atoi(argv[1]); n = atoi(argv[2]); k = atoi(argv[3]); nSamples = atoi(argv[4]); timing = malloc(nSamples * sizeof *timing); a = mkl_malloc(m*k * sizeof *a, 64); b = mkl_malloc(k*n * sizeof *a, 64); c = mkl_calloc(m*n, sizeof *a, 64); /** ROW-MAJOR ORDERING **/ test_dgemm(CblasRowMajor, a, b, c, m, n, k, nSamples, timing); /** COLUMN-MAJOR ORDERING **/ test_dgemm(CblasColMajor, a, b, c, m, n, k, nSamples, timing); mkl_free(a); mkl_free(b); mkl_free(c); free(timing); } void init_matrix(double *A, int n, int m, double d) { int i, j; #pragma omp for schedule (static) private(i,j) for (i = 0; i < n; ++i) { for (j = 0; j < m; ++j) { A[j + i*n] = d * (double) ((i - j) / n); } } } void test_dgemm(CBLAS_LAYOUT Layout, double *A, double *B, double *C, const MKL_INT m, const MKL_INT n, const MKL_INT k, int nSamples, double *timing) { int i; MKL_INT lda = m, ldb = k, ldc = m; double alpha = 1.0, beta = 0.0; if (CblasRowMajor == Layout) { printf("\n*****ROW-MAJOR ORDERING*****\n\n"); } else if (CblasColMajor == Layout) { printf("\n*****COLUMN-MAJOR ORDERING*****\n\n"); } init_matrix(A, m, k, 0.5); init_matrix(B, k, n, 0.75); init_matrix(C, m, n, 0); // First call performs any buffer/thread initialisation cblas_dgemm(Layout, CblasNoTrans, CblasNoTrans, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc); double tmin = DBL_MAX, tmax = 0.0; for (i = 0; i < nSamples; ++i) { init_matrix(A, m, k, 0.5); init_matrix(B, k, n, 0.75); init_matrix(C, m, n, 0); timing[i] = dsecnd(); cblas_dgemm(Layout, CblasNoTrans, CblasNoTrans, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc); timing[i] = dsecnd() - timing[i]; if (tmin > timing[i]) tmin = timing[i]; else if (tmax < timing[i]) tmax = timing[i]; } print_summary(m, n, k, nSamples, timing); } void print_summary(const MKL_INT m, const MKL_INT n, const MKL_INT k, const int nSamples, const double *timing) { int i; double tavg = 0.0; for(i = 0; i < nSamples; i++) { tavg += timing[i]; } tavg /= nSamples; printf("#Loop | Sizes m n k | Time (s)\n"); for(i = 0; i < nSamples; i++) { printf("%4d %12d %3d %3d %6.4f\n", i + 1 , m, n, k, timing[i]); } printf("Summary:\n"); printf("Sizes m n k | Avg. Time (s)\n"); printf(" %8d %3d %3d %12.8f\n", m, n, k, tavg); }
在我的系统上产生

$ ./benchmark_dgemm 1000 1000 1000 5 *****ROW-MAJOR ORDERING***** #Loop | Sizes m n k | Time (s) 1 1000 1000 1000 0.0589 2 1000 1000 1000 0.0596 3 1000 1000 1000 0.0603 4 1000 1000 1000 0.0626 5 1000 1000 1000 0.0584 Summary: Sizes m n k | Avg. Time (s) 1000 1000 1000 0.05995692 *****COLUMN-MAJOR ORDERING***** #Loop | Sizes m n k | Time (s) 1 1000 1000 1000 0.0597 2 1000 1000 1000 0.0610 3 1000 1000 1000 0.0581 4 1000 1000 1000 0.0594 5 1000 1000 1000 0.0596 Summary: Sizes m n k | Avg. Time (s) 1000 1000 1000 0.05955171
我们可以看到column-major 排序时间和row-major 排序时间之间的差别很小。 列优先 0.0595 秒 与 行优先 0.0599 秒。再次执行此操作可能会产生以下结果，其中行优先计算快了 0.00003 秒。

$ ./benchmark_dgemm 1000 1000 1000 5 *****ROW-MAJOR ORDERING***** #Loop | Sizes m n k | Time (s) 1 1000 1000 1000 0.0674 2 1000 1000 1000 0.0598 3 1000 1000 1000 0.0595 4 1000 1000 1000 0.0587 5 1000 1000 1000 0.0584 Summary: Sizes m n k | Avg. Time (s) 1000 1000 1000 0.06075310 *****COLUMN-MAJOR ORDERING***** #Loop | Sizes m n k | Time (s) 1 1000 1000 1000 0.0634 2 1000 1000 1000 0.0596 3 1000 1000 1000 0.0582 4 1000 1000 1000 0.0582 5 1000 1000 1000 0.0645 Summary: Sizes m n k | Avg. Time (s) 1000 1000 1000 0.06078266

关于c - MKL 是否为*主要订单优化 cblas？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32445741/

34

4

0

文章推荐： java - 如何使用 REST Web 服务器维护登录状态？

文章推荐： android - 带有 GPS 位置的 mp4 视频文件

文章推荐： android - 如何以编程方式在android中打开目录

文章推荐： c - pthread_cond_wait() 是否可能消耗多个 pthread_cond_signal()？

c++ - 为什么 MSVC 不为 char 或 const char* 优化 cout 而为 int 优化？
比较代码: const char x = 'a'; std::cout > (0C310B0h) 00C3100B add esp,4 和 const i
Matlab 优化
您好，我正在使用 Matlab 优化求解器，但程序有问题。我收到此消息 fmincon 已停止，因为目标函数值小于目标函数限制的默认值，并且约束满足在约束容差的默认值范围内。我也收到以下消息。警告:矩
Eclipse 优化
处理Visual Studio optimizations的问题为我节省了大量启动和使用它的时间当我必须进行 J2EE 开发时，我很难回到 Eclipse。因此，我还想知道人们是否有任何提示或技巧可
Excel 优化
情况如下:在我的 Excel 工作表中，有一列包含 1-name 形式的条目。考虑到数字也可以是两位数，我想删除这些数字。这本身不是问题，我让它工作了，只是性能太糟糕了。现在我的程序每个单元格输入大约
jQuery 优化
这样做有什么区别吗: $(".topHorzNavLink").click(function() { var theHoverContainer = $("#hoverContainer");
jQuery $(this) 优化
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the cost of '$(this)'? 我经常在一些开发人员代码中看到$(this)引用同一个
jQuery 优化
我刚刚结束了一个大型开发项目。我们的时间紧迫，因此很多优化被“推迟”。既然我们已经达到了最后期限，我们将回去尝试优化事情。我的问题是:优化 jQuery 网站时您要寻找的最重要的东西是什么。或者，我
JavaScript 优化
所以我一直在用 JavaScript 编写游戏(不是网络游戏，而是使用 JavaScript 恰好是脚本语言的游戏引擎)。不幸的是，游戏引擎的 JavaScript 引擎是 SpiderMonkey
MYSQL查询、优化
这是我在正在构建的页面中使用的 SQL 查询。它目前运行大约 8 秒并返回 12000 条记录，这是正确的，但我想知道您是否可以就如何使其更快提出可能的建议？ SELECT DISTINCT Adve
SQL 优化
如何优化这个？ SELECT e.attr_id, e.sku, a.value FROM product_attr AS e, product_attr_text AS a WHERE e.attr
python - 优化 `in`
我正在使用这样的结构来测试是否按下了所需的键: def eventFilter(self, tableView, event): if event.type() == QtCore.QEven
JavaScript 优化
我正在使用 JavaScript 从给定的球员列表中计算出羽毛球 double 比赛的所有组合。每个玩家都与其他人组队。 EG。如果我有以下球员a、b、c、d。它们的组合可以是: a & b V c
Javascript 优化
我似乎无法弄清楚如何让这个 JS 工作。 scroll function 起作用但不能隐藏。还有没有办法用更少的代码行来做到这一点？我希望 .down-arrow 在 50px 之后 fade out
CSS高级最小化(优化)
我的问题是关于用于生产的高级优化级联样式表 (CSS) 文件。多么最新和最完整(准备在实时元素中使用)的 css 优化器/最小化器，它们不仅提供删除空格和换行符，还提供高级功能，如删除过多的属性、合
HTML 优化
我读过这个: 浏览器检索在中请求的所有资源开始呈现之前的 HTML 部分.如果您将请求放在中section 而不是，那么页面呈现和下载资源可以并行发生。您应该从移动尽可能多的资源请求。
C++ 优化
我正在处理一些现有的 C++ 代码，这些代码看起来写得不好，而且调用频率很高。我想知道我是否应该花时间更改它，或者编译器是否已经在优化问题。我正在使用 Visual Studio 2008。这是一
c++ - 优化
我正在尝试使用 OpenGL 渲染 3 个四边形(1 个背景图，2 个 Sprite )。我有以下代码: void GLRenderer::onDrawObjects(long p_dt) {
Java If 优化
我确实有以下声明: isEnabled = false; if(foo(arg) && isEnabled) { .... } public boolean foo(arg) { some re
SQL 优化
(一)深入浅出理解索引结构实际上，您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：聚集索引(clustered index，也称聚类索引、簇集索引)和非聚集索引(no
CSS 优化、提高性能的方法有哪些？
一、写在前面 css的优化方案，之前没有提及，所以接下来进行总结一下。二、具体优化方案 2.1、加载性能 1、css压缩：将写好的css进行打包，可以减少很多的体积。 2、css单一样式：在需要下边

首页

博学

6Ren·AI

商城