- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用 Eigen 库研究两个大矩阵的简单乘法。对于相同大小的矩阵,这种乘法似乎明显比 Matlab 和 Python 慢。
有什么办法可以使 Eigen 运算更快吗?
问题详情
X:随机 1000 x 50000 矩阵
Y:随机 50000 x 300 矩阵
计时实验(在我 2011 年底的 Macbook Pro 上)
使用 Matlab:X*Y 需要大约 1.3 秒
使用 Enthought Python:numpy.dot( X, Y) 需要大约 2.2 秒
使用 Eigen:X*Y 需要大约 2.7 秒
Eigen 详细信息
您可以获得我的 Eigen 代码(作为 MEX 函数):https://gist.github.com/michaelchughes/4742878
此 MEX 函数从 Matlab 中读取两个矩阵,并返回它们的乘积。
在没有矩阵乘积运算的情况下运行此 MEX 函数(即仅执行 IO)产生的开销可以忽略不计,因此函数和 Matlab 之间的 IO 并不能解释性能上的巨大差异。明明就是实际的矩阵乘积运算。
我正在使用 g++ 进行编译,使用这些优化标志:“-O3 -DNDEBUG”
我使用的是最新稳定的 Eigen 头文件 (3.1.2)。
关于如何提高 Eigen 的性能有什么建议吗?任何人都可以复制我看到的差距吗?
更新编译器似乎真的很重要。最初的 Eigen 时序是使用 Apple XCode 的 g++ 版本完成的:llvm-g++-4.2。
当我使用通过 MacPorts 下载的 g++-4.7(相同的 CXXOPTIMFLAGS)时,我得到 2.4 秒而不是 2.7 秒。
任何其他关于如何更好地编译的建议将不胜感激。
您还可以获得此实验的原始 C++ 代码:https://gist.github.com/michaelchughes/4747789
./MatProdEigen 1000 50000 300
在 g++-4.7 下报告 2.4 秒
最佳答案
首先,在进行性能比较时,请确保您禁用了涡轮增压 (TB)。在我的系统上,使用来自 macport 的 gcc 4.5 并且没有涡轮增压,我得到 3.5s,对应于 8.4 GFLOPS,而我的 2.3 核心 i7 的理论峰值是 9.2GFLOPS,所以还不错。
MatLab 基于 Intel MKL,从报告的性能来看,它显然使用了多线程版本。像 Eigen 这样的小型库不可能在自己的 CPU 上击败英特尔!
Numpy 可以使用任何 BLAS 库、Atlas、MKL、OpenBLAS、eigen-blas 等。我想在您的情况下它使用的是速度也很快的 Atlas。
最后,这是获得更好性能的方法:通过使用 -fopenmp 进行编译,在 Eigen 中启用多线程。默认情况下,Eigen 使用 OpenMP 定义的默认线程数作为线程数。不幸的是,这个数字对应于逻辑核心的数量,而不是物理核心的数量,因此请确保禁用超线程或将 OMP_NUM_THREADS 环境变量定义为物理核心数量。此处我得到 1.25s(没有 TB)和 0.95s(有 TB)。
关于matlab - 如何加速 Eigen 库的矩阵乘积?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14783219/
我想了解表达式模板如何在 Eigen 中工作。 我知道两个动态双向量的总和是由如下所示的东西执行的: CwiseBinaryOp, VectorXd const, VectorXd const > o
在本征中,我们可以创建一个矩阵 Matrix3f m; m m(3, 8, 6); // Input after construction m.diagonal() << 3, 8, 6; Diag
我想知道是否有比使用 for 循环更简单的方法来解决我的问题。所以情况是这样的: 一般来说,我想从我的传感器收集数据点(消息类型为 Eigen::Vector3d,我无法更改它,因为它是一个巨大的框架
简而言之,问题是如何通过一个 Eigen::Map 反对一个期待一个函数 Eigen::MatrixXd 对象。 长话短说: 我有这个 C++ 函数声明 void npMatrix(const Eig
考虑以下代码。 const int N = 100; const float alpha = 0.9; Eigen::MatrixXf myVec = Eigen::MatrixXf::Random(
我试图获得两个张量的矩阵乘积,其中一个张量应该在相乘之前转置( At*B )。 到目前为止,我在 eigen documentation 中发现了什么是没有任何转置和两个矩阵都转置的矩阵乘积。 我正在
我的问题很简单,希望也有一个很好的答案:当我构造了 Eigen::MatrixXd 矩阵时,我可以使用多个线程同时填充矩阵中的行吗(如果我可以确保没有行被同时写入),或者我必须在每个线程中创建临时行对
#include #include namespace Eigen { // float op double -> double template struct ScalarBinaryOpTr
我在 Eigen 库的 API 上遇到了一些困难,即用于稀疏矩阵 Cholesky 分解的 SimplicialLLT 类。我需要分解三个矩阵,然后用它们来求解许多方程组(仅更改右侧) - 因此我只想
我正在尝试使用 Eigen 的 JacobiSVD 进行实验。特别是我试图从奇异值分解中重建输入矩阵。 http://eigen.tuxfamily.org/dox/classEigen_1_1Jac
我刚刚阅读了 Structures having static members Eigen 页。后者陈述如下: If you define a structure having members of
我正在使用 C++ 中的 Eigen 库来获取浮点方阵的平方根: MatrixXf gPrime(QUAD_EKF_NUM_STATES, QUAD_EKF_NUM_STATES); gPri
我正在尝试使用 vector 中的相应值来缩放矩阵中的所有列。如果此值为 0,我想用另一个按常数缩放的矩阵中的列替换该列。听起来很复杂,但在 Matlab 中它非常简单(但可能没有完全优化): a(:
使用 Eigen 将仿射变换转换为等距变换(即仅由旋转和平移组成)的最简单方法是什么? 图书馆? 两种变换都是 3D 的。仿射矩阵在左上象限有一个通用的 3x3 矩阵(即旋转、缩放和剪切),而等轴测在
我正在尝试生成 PCL 点云。我所有的点都在以下容器类型中: std::vector > 我想创建一个指向 PCL 点云的指针: pcl::PointCloud::Ptr pc 创建此点云的最有效方法
最近,我编译了 Eigen3 并用它在 Windows 上做一些线性代数任务。 但我想知道为什么 Eigen3 不需要链接额外的 lib 或 DLL(我只需要包含它的头文件) Eigen 是否在编译时
我正在使用特征张量库,在我看来,shuffle() 方法需要一个对象 Eigen::array 作为输入。 在我的实现中,我有一个 std::list 需要传递给 shuffle (当然我只在运行时知
我有两个问题。 Eigen::Affine3f 和 Eigen::Matrix4f 中表示的刚性变换是否相同? 我们如何从 Eigen::Affine3f 转换为 Eigen::Matrix4f,反之
我想用单个 3-D Eigen::Tensor 替换代码中的一系列矩阵。考虑到这一点,我尝试比较张量和矩阵的性能。 下面的函数“tensorContractTest”执行 (n,n,n) 3 阶张量与
如何将 ArrayXXd 数组转换为 MatrixXd?到目前为止,我已经完成了 MatrixXd temp_mat = my_array; 并且隐式转换似乎工作正常,但这是应该完成的方式吗?或者我应
我是一名优秀的程序员,十分优秀!