- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我最近开始使用 Eigen(版本 3.3.1),针对 Armadillo 在 OLS 回归核心的简单矩阵运算上运行基准测试,即单独计算矩阵乘积的逆,我注意到对于这种操作,使用 MKL 库编译时 Eigen 的运行速度比不使用它时慢。我想知道我的编译说明是否有误。我还尝试实现直接调用 MKL BLAS 和 LAPACK 例程的此操作,并获得更快的结果,与 Armadillo 一样快。我无法解释如此糟糕的性能,尤其是浮点类型。
我写了下面的代码来实现这个基准:
#define ARMA_DONT_USE_WRAPPER
#define ARMA_NO_DEBUG
#include <armadillo>
#define EIGEN_NO_DEBUG
#define EIGEN_NO_STATIC_ASSERT
#define EIGEN_USE_MKL_ALL
#include <Eigen/Dense>
template <typename T>
using Matrix = Eigen::Matrix<T, Eigen::Dynamic, Eigen::Dynamic>;
#ifdef USE_FLOAT
using T = float;
#else
using T = double;
#endif
int main()
{
arma::wall_clock timer;
int niter = 1000000;
int n = 1000;
int k = 20;
arma::Mat<T> Xa = arma::cumsum(arma::randn<arma::Mat<T>>(n, k));
Matrix<T> Xe = Matrix<T>::Map(Xa.memptr(), Xa.n_rows, Xa.n_cols);
// Armadillo compiled with MKL
timer.tic();
for (int i = 0; i < niter; ++i) {
arma::Mat<T> iX2a = (Xa.t() * Xa).i();
}
std::cout << "...Elapsed time: " << timer.toc() << "\n";
// Eigen compiled with MKL
timer.tic();
for (int i = 0; i < niter; ++i) {
Matrix<T> iX2e = (Xe.transpose() * Xe).inverse();
}
std::cout << "...Elapsed time: " << timer.toc() << "\n";*/
// Eigen Matrix with MKL routines
timer.tic();
for (int i = 0; i < niter; ++i) {
Matrix<T> iX2e = Matrix<T>::Zero(k, k);
// first stage => computing square matrix trans(X) * X
#ifdef USE_FLOAT
cblas_ssyrk(CblasColMajor, CblasLower, CblasTrans, k, n, 1.0, &Xe(0,0), n, 0.0, &iX2e(0,0), k);
#else
cblas_dsyrk(CblasColMajor, CblasLower, CblasTrans, k, n, 1.0, &Xe(0,0), n, 0.0, &iX2e(0,0), k);
#endif
// getting upper part
for (int i = 0; i < k; ++i)
for (int j = i + 1; j < k; ++j)
iX2e(i, j) = iX2e(j, i);
// second stage => inverting square matrix
// initializing pivots
int* ipiv = new int[k];
// factorizing matrix
#ifdef USE_FLOAT
LAPACKE_sgetrf(LAPACK_COL_MAJOR, k, k, &iX2e(0,0), k, ipiv);
#else
LAPACKE_dgetrf(LAPACK_COL_MAJOR, k, k, &iX2e(0,0), k, ipiv);
#endif
// computing the matrix inverse
#ifdef USE_FLOAT
LAPACKE_sgetri(LAPACK_COL_MAJOR, k, &iX2e(0,0), k, ipiv);
#else
LAPACKE_dgetri(LAPACK_COL_MAJOR, k, &iX2e(0,0), k, ipiv);
#endif
delete[] ipiv;
}
std::cout << "...Elapsed time: " << timer.toc() << "\n";
}
我编译这个名为 test.cpp 的文件:
g++ -std=c++14 -Wall -O3 -march=native -DUSE_FLOAT test.cpp -o run -L${MKLROOT}/lib/intel64 -Wl,--no-as-needed -lmkl_gf_lp64 - lmkl_sequential-lmkl_core
我得到以下结果(在 Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz 上)
带 MKL 的 Armadillo => 64.0s
MKL 的特征值 => 72.2s
仅 Eigen => 68.7s
纯 MKL => 64.9s
带 MKL 的 Armadillo => 38.2s
MKL 的特征值 => 61.1s
仅 Eigen => 42.6s
纯 MKL => 38.9s
注意:我为一个不会使用非常大矩阵的项目运行此测试,我不需要在这个级别进行并行化,我最大的矩阵可能是 2000 行 25 列,而且我需要并行化更高级别,所以我想避免任何类型的嵌套并行性,这可能会降低我的代码速度。
最佳答案
正如我在评论中所说,确保在进行基准测试时禁用 turbo-boost。
作为旁注和供将来引用,您当前的 Eigen 代码将调用 gemm 而不是 syrk。您可以通过以下方式明确要求后者:
Matrix<T> tmp = Matrix<T>::Zero(k, k);
tmp.selfadjointView<Eigen::Lower>().rankUpdate(Xe.transpose());
tmp.triangularView<Eigen::Upper>() = tmp.transpose().triangularView<Eigen::Lower>();
iX2e = tmp.inverse();
不过,对于如此小的矩阵,我真的看不出太大的差异。
关于c++ - 使用 MKL 编译时 Eigen C++ 运行速度变慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41089312/
我已经在谷歌上搜索这个问题一段时间了,但我还没有找到有效的解决方案。 问题是 SSH 登录到我的服务器突然变得很慢。我可以看到身份验证需要大约 10 秒才能继续,这是我的 ssh 详细日志: Open
我正在使用 AVPlayer 在我的项目中播放在线视频。视频播放良好。现在我想减少/增加视频的 fps。以下是我正在使用的代码: self.asset = [AVAsset assetWithURL:
在 Raspberry Pi 上运行两个使用 python gpio 引脚的程序时,一个变慢。一种是磁传感器,另一种是温湿度传感器。后者是放慢速度的。它不是每 2 秒打印一次温度,而是每 5 到 10
我从 Redis 向我的应用程序提供一个 json,然后我对其进行解码和循环。 这是我从 Redis 提供的 json 的样子: [ { "titel": "test 1",
Ejabberd 版本:19.9.0 在发送 OMEMO 消息时(使用 websockets),例如
我们有相当大的代码库(150 多个项目、400000 多行 Java 代码、一些 Groovy 和 Gradle 代码、一些 Perl 代码、一些 XML、大量 JSP 等)。我设法在 Spring
我在一个网站上工作,您可以在其中创建 svg 艺术品,这意味着您可以动态添加元素、缩放、颜色并移动它们。 问题是,当你开始在他们身上施加阴影时,一切都会开始变慢。对于这个的现场演示,this是我正在开
有没有办法分析 Vim 插件? 当我打开一个大的 .py 时,我的 MacVim 变得越来越慢。我知道我可以取消选择所有插件并逐一重新选择以检查哪个插件是罪魁祸首,但是有没有更快的方法? 我的 dot
我正在构建一个JavaFX应用程序。我知道它使用反射,并且反射可能不如我在代码中构建 UI 时那么快。 所以, 如何设计我的 Controller 以使由反射引起的开销尽可能小? 带/不带 @FXML
我对 UITableViewCell 进行了子类化显示从 1 到 70 的数字。 在每个单元格中,我都在检查中奖号码并检查他们的背景。问题是,经过几次滚动后,tableview 变得非常缓慢,甚至无法
如果我想group_by 和filter 那些在数据集中有任何NA 或factor 值的,我想在 dplyr 中使用 any 函数,但发现它对 NAs 或 factor 运行缓慢(但不是为了寻找任何数
我有一个问题。在我的解决方案中,我需要将数千个数据插入数据库。我正在使用批处理准备语句在一个请求中插入多行。在我调用插入几次之后, hibernate 变得更慢了。 我猜它会在我提交后检查数据库是否有
我从 json url 获取数据,但是当我想加载图像时,速度非常慢! class NewsTableViewController: UITableViewController { var id
我有一个相当简单的托管 Realm 对象 RealmAlertItem由一些字符串和 float 组成。我有一个函数 showAlertNotification()随后被调用(从网络外部触发)并且它依
请参阅下面的表格结构。 CREATE TABLE `oarc` ( `ID` bigint(20) NOT NULL AUTO_INCREMENT, `zID` int(11) NOT N
IntelliJ 慢得像爬行。键之间没有 1-2 个延迟几乎无法打字。我已经更新了堆大小。我在我的 Macbook Pro 上运行大约 2GB RAM。自从它一直在放缓。我已经增加了堆大小,但无济于事
我的 Web 应用程序遇到了性能问题。发现瓶颈是db。应用程序在具有 4 个 CPU 和 2GB RAM 的 LAMP 服务器 (VPS) 上运行。 将新记录插入数据库(包含大约 100.000 条记
我有关于自定义 DispatchQueue 的问题。 我创建了一个队列,并将其用作captureOutput:方法的队列。这是一个代码片段: //At the file header private
我是一名移动 QA。现在我们有一个关于网络响应和 UI 渲染之间的竞争条件的问题。我们猜测如果 UI 渲染比网络响应慢,那么它就会崩溃。 我们已经尝试通过使用 Charles 的本地 map 功能来加
我在 firefox 中遇到了一些奇怪的行为,我正在构建一个单页作品集,作为一名平面设计师,编码一直很困难。我想平滑地控制导航,然后向所有元素添加缩放(最初设计为 1920x1080 全屏)。讲师扔了
我是一名优秀的程序员,十分优秀!