- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
将两个 data-mapped matrices (Eigen::Map
) 相乘时我注意到显着的性能差异取决于内存的分配方式。使用来自自定义分配的内存时,与使用来自 std::vector
的(也对齐的)内存相比,速度几乎快两倍数据也由 Eigen::aligned_allocator
分配.
最小基准:
#include <Eigen/Core>
#include <Eigen/StdVector>
#include <chrono>
#include <iostream>
using Matrix = Eigen::Matrix<float, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
using Mapped = Eigen::Map<Matrix, Eigen::Aligned16>;
using aligned_vector = std::vector<float, Eigen::aligned_allocator<float>>;
void measure(const std::string& name, const Mapped& a, const Mapped& b, Mapped& c)
{
using namespace std::chrono;
const auto start_time_ns = high_resolution_clock::now().time_since_epoch().count();
const std::size_t runs = 10;
for (size_t i = 0; i < runs; ++i)
{
c.noalias() = a * b;
}
const auto end_time_ns = high_resolution_clock::now().time_since_epoch().count();
const auto elapsed_ms = (end_time_ns - start_time_ns) / 1000000;
std::cout << name << ": " << elapsed_ms << " ms" << std::endl;
}
int main()
{
unsigned int size_1 = 1;
unsigned int size_2 = 8192;
unsigned int size_3 = 16384;
aligned_vector a_vec(size_1 * size_2);
aligned_vector b_vec(size_2 * size_3);
aligned_vector c_vec(size_1 * size_3);
Mapped a_mapped_vec(a_vec.data(), size_1, size_2);
Mapped b_mapped_vec(b_vec.data(), size_2, size_3);
Mapped c_mapped_vec(c_vec.data(), size_1, size_3);
measure("Mapped vector memory", a_mapped_vec, b_mapped_vec, c_mapped_vec);
Eigen::aligned_allocator<float> allocator;
float* a_mem = allocator.allocate(size_1 * size_2);
float* b_mem = allocator.allocate(size_2 * size_3);
float* c_mem = allocator.allocate(size_1 * size_3);
Mapped a_mapped_mem(a_mem, size_1, size_2);
Mapped b_mapped_mem(b_mem, size_2, size_3);
Mapped c_mapped_mem(c_mem, size_1, size_3);
measure("Mapped custom memory", a_mapped_mem, b_mapped_mem, c_mapped_mem);
allocator.deallocate(a_mem, size_1 * size_2);
allocator.deallocate(b_mem, size_2 * size_3);
allocator.deallocate(c_mem, size_1 * size_3);
}
我机器上的输出(Core i5-6600):
Mapped vector memory: 661 ms
Mapped custom memory: 370 ms
Dockerfile
快速重现效果:
FROM ubuntu:20.04
ENV DEBIAN_FRONTEND=noninteractive
RUN apt-get update
RUN apt-get install -y build-essential cmake git wget
RUN git clone -b '3.3.7' --single-branch --depth 1 https://github.com/eigenteam/eigen-git-mirror && cd eigen-git-mirror && mkdir -p build && cd build && cmake .. && make && make install && ln -s /usr/local/include/eigen3/Eigen /usr/local/include/Eigen
RUN wget https://gist.githubusercontent.com/Dobiasd/4b80aa0d5d19f8112656794ab94a061b/raw/c9cca8abc16ab35e71070aed5e779c7a8ebb3a7e/main.cpp
RUN g++ -std=c++14 -O3 -march=native main.cpp -o main
ADD "https://www.random.org/cgi-bin/randbyte?nbytes=10&format=h" skipcache
RUN ./main
为什么会有这样的差异? (我认为 Eigen 不会知道内存来自哪里。)
对我来说更重要的是,如何提高来自 std::vector
的内存的性能?
最佳答案
正如 PeterT 的评论中指出的那样和 chtz ,手动分配的版本不会初始化内存(与 std::vector
相比),访问它是未定义的行为,因此 MMU 可能会做一些聪明的事情,即,实际上不会访问内存。
在第二部分也初始化内存时,两个版本表现出相似的性能:
float* a_mem = allocator.allocate(size_1 * size_2);
memset(a_mem, 0, size_1 * size_2 * sizeof(float));
float* b_mem = allocator.allocate(size_2 * size_3);
memset(b_mem, 0, size_2 * size_3 * sizeof(float));
float* c_mem = allocator.allocate(size_1 * size_3);
memset(c_mem, 0, size_1 * size_3 * sizeof(float));
Mapped vector memory: 654 ms
Mapped custom memory: 655 ms
关于c++ - 如何提高与 std::vector 共享内存的数据映射(Eigen::Map)矩阵的 GEMM 性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61707970/
我想了解表达式模板如何在 Eigen 中工作。 我知道两个动态双向量的总和是由如下所示的东西执行的: CwiseBinaryOp, VectorXd const, VectorXd const > o
在本征中,我们可以创建一个矩阵 Matrix3f m; m m(3, 8, 6); // Input after construction m.diagonal() << 3, 8, 6; Diag
我想知道是否有比使用 for 循环更简单的方法来解决我的问题。所以情况是这样的: 一般来说,我想从我的传感器收集数据点(消息类型为 Eigen::Vector3d,我无法更改它,因为它是一个巨大的框架
简而言之,问题是如何通过一个 Eigen::Map 反对一个期待一个函数 Eigen::MatrixXd 对象。 长话短说: 我有这个 C++ 函数声明 void npMatrix(const Eig
考虑以下代码。 const int N = 100; const float alpha = 0.9; Eigen::MatrixXf myVec = Eigen::MatrixXf::Random(
我试图获得两个张量的矩阵乘积,其中一个张量应该在相乘之前转置( At*B )。 到目前为止,我在 eigen documentation 中发现了什么是没有任何转置和两个矩阵都转置的矩阵乘积。 我正在
我的问题很简单,希望也有一个很好的答案:当我构造了 Eigen::MatrixXd 矩阵时,我可以使用多个线程同时填充矩阵中的行吗(如果我可以确保没有行被同时写入),或者我必须在每个线程中创建临时行对
#include #include namespace Eigen { // float op double -> double template struct ScalarBinaryOpTr
我在 Eigen 库的 API 上遇到了一些困难,即用于稀疏矩阵 Cholesky 分解的 SimplicialLLT 类。我需要分解三个矩阵,然后用它们来求解许多方程组(仅更改右侧) - 因此我只想
我正在尝试使用 Eigen 的 JacobiSVD 进行实验。特别是我试图从奇异值分解中重建输入矩阵。 http://eigen.tuxfamily.org/dox/classEigen_1_1Jac
我刚刚阅读了 Structures having static members Eigen 页。后者陈述如下: If you define a structure having members of
我正在使用 C++ 中的 Eigen 库来获取浮点方阵的平方根: MatrixXf gPrime(QUAD_EKF_NUM_STATES, QUAD_EKF_NUM_STATES); gPri
我正在尝试使用 vector 中的相应值来缩放矩阵中的所有列。如果此值为 0,我想用另一个按常数缩放的矩阵中的列替换该列。听起来很复杂,但在 Matlab 中它非常简单(但可能没有完全优化): a(:
使用 Eigen 将仿射变换转换为等距变换(即仅由旋转和平移组成)的最简单方法是什么? 图书馆? 两种变换都是 3D 的。仿射矩阵在左上象限有一个通用的 3x3 矩阵(即旋转、缩放和剪切),而等轴测在
我正在尝试生成 PCL 点云。我所有的点都在以下容器类型中: std::vector > 我想创建一个指向 PCL 点云的指针: pcl::PointCloud::Ptr pc 创建此点云的最有效方法
最近,我编译了 Eigen3 并用它在 Windows 上做一些线性代数任务。 但我想知道为什么 Eigen3 不需要链接额外的 lib 或 DLL(我只需要包含它的头文件) Eigen 是否在编译时
我正在使用特征张量库,在我看来,shuffle() 方法需要一个对象 Eigen::array 作为输入。 在我的实现中,我有一个 std::list 需要传递给 shuffle (当然我只在运行时知
我有两个问题。 Eigen::Affine3f 和 Eigen::Matrix4f 中表示的刚性变换是否相同? 我们如何从 Eigen::Affine3f 转换为 Eigen::Matrix4f,反之
我想用单个 3-D Eigen::Tensor 替换代码中的一系列矩阵。考虑到这一点,我尝试比较张量和矩阵的性能。 下面的函数“tensorContractTest”执行 (n,n,n) 3 阶张量与
如何将 ArrayXXd 数组转换为 MatrixXd?到目前为止,我已经完成了 MatrixXd temp_mat = my_array; 并且隐式转换似乎工作正常,但这是应该完成的方式吗?或者我应
我是一名优秀的程序员,十分优秀!