c++ - 使用 MKL 编译时 Eigen C++ 运行速度变慢-6ren

c++ - 使用 MKL 编译时 Eigen C++ 运行速度变慢

转载作者：行者123 更新时间：2023-11-30 03:35:42

37

4

我最近开始使用 Eigen(版本 3.3.1)，针对 Armadillo 在 OLS 回归核心的简单矩阵运算上运行基准测试，即单独计算矩阵乘积的逆，我注意到对于这种操作，使用 MKL 库编译时 Eigen 的运行速度比不使用它时慢。我想知道我的编译说明是否有误。我还尝试实现直接调用 MKL BLAS 和 LAPACK 例程的此操作，并获得更快的结果，与 Armadillo 一样快。我无法解释如此糟糕的性能，尤其是浮点类型。

我写了下面的代码来实现这个基准:

#define ARMA_DONT_USE_WRAPPER
#define ARMA_NO_DEBUG
#include <armadillo>

#define EIGEN_NO_DEBUG
#define EIGEN_NO_STATIC_ASSERT
#define EIGEN_USE_MKL_ALL
#include <Eigen/Dense>

template <typename T>
using Matrix = Eigen::Matrix<T, Eigen::Dynamic, Eigen::Dynamic>;

#ifdef USE_FLOAT
using T = float;
#else
using T = double;
#endif

int main()
{
    arma::wall_clock timer;

    int niter = 1000000;
    int n = 1000;
    int k = 20;

    arma::Mat<T> Xa = arma::cumsum(arma::randn<arma::Mat<T>>(n, k));
    Matrix<T> Xe = Matrix<T>::Map(Xa.memptr(), Xa.n_rows, Xa.n_cols);

    // Armadillo compiled with MKL
    timer.tic();
    for (int i = 0; i < niter; ++i) {
        arma::Mat<T> iX2a = (Xa.t() * Xa).i();
    }
    std::cout << "...Elapsed time: " << timer.toc() << "\n";

    // Eigen compiled with MKL
    timer.tic();
    for (int i = 0; i < niter; ++i) {
        Matrix<T> iX2e = (Xe.transpose() * Xe).inverse();
    }
    std::cout << "...Elapsed time: " << timer.toc() << "\n";*/

    // Eigen Matrix with MKL routines
    timer.tic();
    for (int i = 0; i < niter; ++i) {
        Matrix<T> iX2e =  Matrix<T>::Zero(k, k);
        // first stage => computing square matrix trans(X) * X
        #ifdef USE_FLOAT
        cblas_ssyrk(CblasColMajor, CblasLower, CblasTrans, k, n, 1.0, &Xe(0,0), n, 0.0, &iX2e(0,0), k);
        #else
        cblas_dsyrk(CblasColMajor, CblasLower, CblasTrans, k, n, 1.0, &Xe(0,0), n, 0.0, &iX2e(0,0), k);
        #endif
        // getting upper part  
        for (int i = 0; i < k; ++i)
            for (int j = i + 1; j < k; ++j)
                iX2e(i, j) = iX2e(j, i);
        // second stage => inverting square matrix
        // initializing pivots
        int* ipiv = new int[k];
        // factorizing matrix
        #ifdef USE_FLOAT 
        LAPACKE_sgetrf(LAPACK_COL_MAJOR, k, k, &iX2e(0,0), k, ipiv);
        #else
        LAPACKE_dgetrf(LAPACK_COL_MAJOR, k, k, &iX2e(0,0), k, ipiv); 
        #endif
        // computing the matrix inverse
        #ifdef USE_FLOAT 
        LAPACKE_sgetri(LAPACK_COL_MAJOR, k, &iX2e(0,0), k, ipiv);
        #else
        LAPACKE_dgetri(LAPACK_COL_MAJOR, k, &iX2e(0,0), k, ipiv);
        #endif
        delete[] ipiv;
    }
    std::cout << "...Elapsed time: " << timer.toc() << "\n";
}

我编译这个名为 test.cpp 的文件:

g++ -std=c++14 -Wall -O3 -march=native -DUSE_FLOAT test.cpp -o run -L${MKLROOT}/lib/intel64 -Wl,--no-as-needed -lmkl_gf_lp64 - lmkl_sequential-lmkl_core

我得到以下结果(在 Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz 上)

对于双重类型:

带 MKL 的 Armadillo => 64.0s

MKL 的特征值 => 72.2s

仅 Eigen => 68.7s

纯 MKL => 64.9s

对于 float 类型:

带 MKL 的 Armadillo => 38.2s

MKL 的特征值 => 61.1s

仅 Eigen => 42.6s

纯 MKL => 38.9s

注意:我为一个不会使用非常大矩阵的项目运行此测试，我不需要在这个级别进行并行化，我最大的矩阵可能是 2000 行 25 列，而且我需要并行化更高级别，所以我想避免任何类型的嵌套并行性，这可能会降低我的代码速度。

最佳答案

正如我在评论中所说，确保在进行基准测试时禁用 turbo-boost。

作为旁注和供将来引用，您当前的 Eigen 代码将调用 gemm 而不是 syrk。您可以通过以下方式明确要求后者:

Matrix<T> tmp = Matrix<T>::Zero(k, k);
tmp.selfadjointView<Eigen::Lower>().rankUpdate(Xe.transpose());
tmp.triangularView<Eigen::Upper>() = tmp.transpose().triangularView<Eigen::Lower>();
iX2e = tmp.inverse();

不过，对于如此小的矩阵，我真的看不出太大的差异。

关于c++ - 使用 MKL 编译时 Eigen C++ 运行速度变慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41089312/

37

4

0

文章推荐： c++ - QT Creator 中没有警告

文章推荐： android - 高效地加载位图并在 ImageView 中显示

文章推荐： c++ - 线程 - 没有要调用的匹配函数

文章推荐：安卓浏览器打不开网页

在身份验证可以继续之前 ssh 变慢
我已经在谷歌上搜索这个问题一段时间了，但我还没有找到有效的解决方案。问题是 SSH 登录到我的服务器突然变得很慢。我可以看到身份验证需要大约 10 秒才能继续，这是我的 ssh 详细日志: Open
iOS AVPlayer 变慢
我正在使用 AVPlayer 在我的项目中播放在线视频。视频播放良好。现在我想减少/增加视频的 fps。以下是我正在使用的代码: self.asset = [AVAsset assetWithURL:
在树莓派中运行两个程序时 Python 变慢
在 Raspberry Pi 上运行两个使用 python gpio 引脚的程序时，一个变慢。一种是磁传感器，另一种是温湿度传感器。后者是放慢速度的。它不是每 2 秒打印一次温度，而是每 5 到 10
遍历集合时 Golang 变慢
我从 Redis 向我的应用程序提供一个 json，然后我对其进行解码和循环。这是我从 Redis 提供的 json 的样子: [ { "titel": "test 1",
debugging - 发送大节时 Ejabberd 变慢
Ejabberd 版本:19.9.0 在发送 OMEMO 消息时(使用 websockets)，例如
eclipse - 如何确定是什么导致 Eclipse 变慢？
我们有相当大的代码库(150 多个项目、400000 多行 Java 代码、一些 Groovy 和 Gradle 代码、一些 Perl 代码、一些 XML、大量 JSP 等)。我设法在 Spring
optimization - 使用阴影时 SVG 变慢
我在一个网站上工作，您可以在其中创建 svg 艺术品，这意味着您可以动态添加元素、缩放、颜色并移动它们。问题是，当你开始在他们身上施加阴影时，一切都会开始变慢。对于这个的现场演示，this是我正在开
debugging - 如何查看哪些插件导致 Vim 变慢？
有没有办法分析 Vim 插件？当我打开一个大的 .py 时，我的 MacVim 变得越来越慢。我知道我可以取消选择所有插件并逐一重新选择以检查哪个插件是罪魁祸首，但是有没有更快的方法？我的 dot
JavaFX ...是什么让我的 Controller 变慢？
我正在构建一个JavaFX应用程序。我知道它使用反射，并且反射可能不如我在代码中构建 UI 时那么快。所以，如何设计我的 Controller 以使由反射引起的开销尽可能小？带/不带 @FXML
ios - 滚动几次后，cellForRowAtIndexPath 变慢
我对 UITableViewCell 进行了子类化显示从 1 到 70 的数字。在每个单元格中，我都在检查中奖号码并检查他们的背景。问题是，经过几次滚动后，tableview 变得非常缓慢，甚至无法
r - 过滤任何命令时 group_by 变慢
如果我想group_by 和filter 那些在数据集中有任何NA 或factor 值的，我想在 dplyr 中使用 any 函数，但发现它对 NAs 或 factor 运行缓慢(但不是为了寻找任何数
java - 多次插入后 hibernate 变慢
我有一个问题。在我的解决方案中，我需要将数千个数据插入数据库。我正在使用批处理准备语句在一个请求中插入多行。在我调用插入几次之后， hibernate 变得更慢了。我猜它会在我提交后检查数据库是否有
ios - 加载图像使我的桌面 View 变慢
我从 json url 获取数据，但是当我想加载图像时，速度非常慢! class NewsTableViewController: UITableViewController { var id
java - 更新托管对象字段的 Realm 变慢
我有一个相当简单的托管 Realm 对象 RealmAlertItem由一些字符串和 float 组成。我有一个函数 showAlertNotification()随后被调用(从网络外部触发)并且它依
mysql 索引使 group by 变慢
请参阅下面的表格结构。 CREATE TABLE `oarc` ( `ID` bigint(20) NOT NULL AUTO_INCREMENT, `zID` int(11) NOT N
android - Intellij 变慢，通常达到最大堆大小然后提示退出
IntelliJ 慢得像爬行。键之间没有 1-2 个延迟几乎无法打字。我已经更新了堆大小。我在我的 Macbook Pro 上运行大约 2GB RAM。自从它一直在放缓。我已经增加了堆大小，但无济于事
INSERT 后 MySQL 变慢
我的 Web 应用程序遇到了性能问题。发现瓶颈是db。应用程序在具有 4 个 CPU 和 2GB RAM 的 LAMP 服务器 (VPS) 上运行。将新记录插入数据库(包含大约 100.000 条记
ios - 一段时间后 dispatch_queue_t 变慢
我有关于自定义 DispatchQueue 的问题。我创建了一个队列，并将其用作captureOutput:方法的队列。这是一个代码片段: //At the file header private
ios - 如何让 iOS 变慢
我是一名移动 QA。现在我们有一个关于网络响应和 UI 渲染之间的竞争条件的问题。我们猜测如果 UI 渲染比网络响应慢，那么它就会崩溃。我们已经尝试通过使用 Charles 的本地 map 功能来加
切换到全屏时 Javascript/jQuery 变慢
我在 firefox 中遇到了一些奇怪的行为，我正在构建一个单页作品集，作为一名平面设计师，编码一直很困难。我想平滑地控制导航，然后向所有元素添加缩放(最初设计为 1920x1080 全屏)。讲师扔了

首页

博学

6Ren·AI

商城

c++ - 使用 MKL 编译时 Eigen C++ 运行速度变慢