- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我最近试图比较不同的 python 和 C++ 矩阵库的线性代数性能,以便了解在即将进行的项目中使用哪个。虽然有多种类型的线性代数运算,但我选择主要关注矩阵求逆,因为它似乎给出了奇怪的结果。我在下面编写了以下代码进行比较,但我认为我一定做错了什么。
C++代码
#include <iostream>
#include "eigen/Eigen/Dense"
#include <xtensor/xarray.hpp>
#include <xtensor/xio.hpp>
#include <xtensor/xview.hpp>
#include <xtensor/xrandom.hpp>
#include <xtensor-blas/xlinalg.hpp> //-lblas -llapack for cblas, -llapack -L OpenBLAS/OpenBLAS_Install/lib -l:libopenblas.a -pthread for openblas
//including accurate timer
#include <chrono>
//including vector array
#include <vector>
void basicMatrixComparisonEigen(std::vector<int> dims, int numrepeats = 1000);
void basicMatrixComparisonXtensor(std::vector<int> dims, int numrepeats = 1000);
int main()
{
std::vector<int> sizings{1, 10, 100, 1000, 10000, 100000};
basicMatrixComparisonEigen(sizings, 2);
basicMatrixComparisonXtensor(sizings,2);
return 0;
}
void basicMatrixComparisonEigen(std::vector<int> dims, int numrepeats)
{
std::chrono::high_resolution_clock::time_point t1;
std::chrono::high_resolution_clock::time_point t2;
using time = std::chrono::high_resolution_clock;
std::cout << "Timing Eigen: " << std::endl;
for (auto &dim : dims)
{
std::cout << "Scale Factor: " << dim << std::endl;
try
{
//Linear Operations
auto l = Eigen::MatrixXd::Random(dim, dim);
//Eigen Matrix inversion
t1 = time::now();
for (int i = 0; i < numrepeats; i++)
{
Eigen::MatrixXd pinv = l.completeOrthogonalDecomposition().pseudoInverse();
//note this does not come out to be identity. The inverse is wrong.
//std::cout<<l*pinv<<std::endl;
}
t2 = time::now();
std::cout << "Eigen Matrix inversion took: " << std::chrono::duration_cast<std::chrono::duration<double>>(t2 - t1).count() * 1000 / (double)numrepeats << " milliseconds." << std::endl;
std::cout << "\n\n\n";
}
catch (const std::exception &e)
{
std::cout << "Error: '" << e.what() << "'\n";
}
}
}
void basicMatrixComparisonXtensor(std::vector<int> dims, int numrepeats)
{
std::chrono::high_resolution_clock::time_point t1;
std::chrono::high_resolution_clock::time_point t2;
using time = std::chrono::high_resolution_clock;
std::cout << "Timing Xtensor: " << std::endl;
for (auto &dim : dims)
{
std::cout << "Scale Factor: " << dim << std::endl;
try
{
//Linear Operations
auto l = xt::random::randn<double>({dim, dim});
//Xtensor Matrix inversion
t1 = time::now();
for (int i = 0; i < numrepeats; i++)
{
auto inverse = xt::linalg::pinv(l);
//something is wrong here. The inverse is not actually the inverse when you multiply it out.
//std::cout << xt::linalg::dot(inverse,l) << std::endl;
}
t2 = time::now();
std::cout << "Xtensor Matrix inversion took: " << std::chrono::duration_cast<std::chrono::duration<double>>(t2 - t1).count() * 1000 / (double)numrepeats << " milliseconds." << std::endl;
std::cout << "\n\n\n";
}
catch (const std::exception &e)
{
std::cout << "Error: '" << e.what() << "'\n";
}
}
}
这是编译的:
g++ cpp_library.cpp -O2 -llapack -L OpenBLAS/OpenBLAS_Install/lib -l:libopenblas.a -pthread -march=native -o benchmark.exe
对于 OpenBLAS,和
g++ cpp_library.cpp -O2 -lblas -llapack -march=native -o benchmark.exe
对于 cBLAS。
g++ 版本 9.3.0。
对于 Python 3:
import numpy as np
from datetime import datetime as dt
#import timeit
start=dt.now()
l=np.random.rand(1000,1000)
for i in range(2):
result=np.linalg.inv(l)
end=dt.now()
print("Completed in: "+str((end-start)/2))
#print(np.matmul(l,result))
#print(np.dot(l,result))
#Timeit also gives similar results
我将重点关注在我的计算机上以合理的时间运行的最大十年:1000x1000。我知道只有 2 次运行会引入一些差异,但我运行了更多次,结果大致如下:
这是一个合理的预期结果吗?为什么 C++ 库比 Numpy 慢?所有 3 个包都使用某种 Lapack/BLAS 后端,但 3 个包之间存在显着差异。特别是,Xtensor 会将我的 CPU 固定为 100% 使用 OpenBlas 的线程,但仍然设法获得更差的性能。
我想知道 C++ 库是否真的在执行矩阵的逆/伪逆,以及这是否是导致这些结果的原因。在 C++ 测试代码的注释部分,我注意到当我对 Eigen 和 Xtensor 的结果进行完整性检查时,矩阵与其逆矩阵之间的矩阵乘积甚至不接近单位矩阵。我尝试使用较小的矩阵 (10x10),认为这可能是一个精度错误,但问题仍然存在。在另一个测试中,我测试秩,这些矩阵是满秩的。为了确保我没有发疯,我在这两种情况下都尝试使用 inv() 而不是 pinv(),结果是一样的。我是否为这个线性代数基准测试使用了错误的函数,或者这个 Numpy 是否在 2 个功能失调的低级库上扭曲了刀?
编辑:谢谢大家对这个问题的兴趣。我想我已经弄清楚了这个问题。我怀疑 Eigen 和 Xtensor 有惰性评估,这实际上导致下游错误,并输出随机矩阵而不是逆矩阵。我能够通过代码中的以下替换来纠正奇怪的数字反转失败:
auto temp = Eigen::MatrixXd::Random(dim, dim);
Eigen::MatrixXd l(dim,dim);
l=temp;
和
auto temp = xt::random::randn<double>({dim, dim});
xt::xarray<double> l =temp;
但是,时间并没有太大变化:
实际上,有点奇怪的是,添加 -O3 和 -ffast-math 实际上会稍微减慢代码速度。 -march=native 在我尝试时对我来说性能提升最大。此外,对于这些问题,OpenBLAS 比 CBLAS 快 2-3 倍。
最佳答案
首先,您计算的不是相同的东西。
要计算 l 矩阵的逆,对 Eigen 使用 l.inverse(),对 xtensor 使用 xt::linalg::inv()
当您将 Blas 链接到 Eigen 或 xtensor 时,这些操作会自动分派(dispatch)给您选择的 Blas。
我尝试替换反函数,用 MatrixXd 和 xt::xtensor 替换 auto 以避免延迟计算,将 openblas 链接到 Eigen、xtensor 和 numpy 并仅使用 -O3 标志编译,以下是我的 Macbook pro M1 上的结果:
Eigen-3.3.9(带 openblas) - ~ 38 毫秒
Eigen-3.3.9(无 openblas) - ~ 85 毫秒
xtensor-master(带 openblas) - ~41 毫秒
Numpy- 1.21.2(带 openblas) - ~35 毫秒。
关于Numpy vs Eigen vs Xtensor 线性代数基准奇数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67463971/
我想创建一个 Python 基准测试列表。现在我只找到了 this 中的标准基准测试问题和一些来自 Computer Language Benchmarks Game . Python 还有其他基准测
我正在使用 apache 提供的基准文件 TestDFSIO 测试我的 hadoop 配置。我正在根据本教程(资源 1)运行它: http://www.michael-noll.com/blog/20
我刚刚安装了 Ruby 企业版,想对我的系统 Ruby 运行一些基准测试。是否有我应该实现的规范基准测试? 最佳答案 最有趣最深入Ruby benchmarks Antonio Cangiano 的系
我已经生成了基准,用于比较使用 ffmpeg 工具缩小视频文件 (mp4) 的两种方法。 基准以这种格式记录: x.mp4 Output_Resolution : 360p Method : A re
我正在使用 codeigniter 制作一个网站。 如果用户在他的评论中写入 {memory_usage} 2.75MB 将显示给他。它不会给 codeigniter 编写的代码带来安全漏洞吗?有什么
我正在尝试对 XSLT 的两个版本进行基准测试。目前我使用 Visual Studio 进行调试,因为从 .NET 组件调用的 xml 转换。 VS 2010 是我用于开发的 IDE。 我得到的唯一线
我想知道如何测量每个节点的内存带宽(流基准)。我的这个程序仅在一个节点上进行测量,进程和线程的数量如下: MPI_Comm_size(MPI_COMM_WORLD, &numranks); MPI_C
我正在关注 performance test Dapper 社区创建的。 目前,我在运行测试 10000 次后得到以下信息: EF 5 = 21595 毫秒 ADO.NET = 52183 毫秒 小巧
为了测量 CPU 的峰值 FLOPS 性能,我编写了一个小的 C++ 程序。但是测量结果给我的结果比我的 CPU 的理论峰值 FLOPS 大。怎么了? 这是我写的代码: #include #incl
有没有办法在 JUnit 测试套件中放置简单的开始/停止计时? 当我创建一个测试套件类时,它看起来像这样,我可以运行它。但是我怎么能在这里放一个简单的长开始时间变量来显示所有测试运行了多长时间? pu
我想测试MySQL数据库的InnoDB和MyRock引擎之间的高强度写入。为此,我使用 sysbench 进行基准测试。我的要求是: 多线程并发写入同一张表。 支持批量插入(每次插入事务都会插入大量记
我正在尝试构建一个 Nodejs Web 应用程序。当我添加更多代码时,最好有一种方法来测试此类更改对性能的影响,如果可能的话,以及我的应用程序在哪些方面花费最多时间。我目前正在使用 mocha 作为
我希望编写一个简单的每秒帧数动画基准 Javascript 实用程序。 FPS 在这里可能是一个模糊的术语,但理想情况下,它可以让我更准确地比较和衡量不同动画 (CSS3/canvas/webgl)
我是 Python 新手。这是我的第一种解释语言。到目前为止,我曾经学习过Java。因此,当 Java 程序第一次运行时,它的执行速度比下一次要慢。reasi 正在缓存。 import time de
我在 Ubuntu 虚拟机中使用 Apache 2.4.2。我用它来加载测试,向某些 HTTPS url 发送请求。失败请求数为零。但是我的请求都无法真正处理(已经在数据库中查找)。使用相同的 url
(我不确定这是否应该在 https://softwareengineering.stackexchange.com/ 上,如果您认为是,请评论) 我即将为我的学士论文创建 WebGL 实现的基准。我不
编辑: Clojure 基准测试已达到 the Benchmarks Game 。 我已经制作了这个问题社区 wiki 并邀请其他人保持更新。 有人知道 Clojure 的性能基准吗? 我自己做了一些
关注 this benchmark BSON 需要更多的磁盘空间和时间来创建、序列化、反序列化和遍历所有元素。 BSON 的一大优势是,它的遍历速度要快得多。那么这个基准有什么问题呢? 最佳答案 你的
我正在 NextFlow 上执行分散-聚集操作。 它看起来像下面这样: reads = PATH+"test_1.fq" outdir = "results" split_read_ch = chan
我无法让apache benchmark与我的网站配合使用。每当我发出此命令时 ab https://example.com/ 我会得到这个输出错误: This is ApacheBench, Ver
我是一名优秀的程序员,十分优秀!