- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
考虑一个大小为 48x16 的 float 矩阵 A 和一个大小为 1x48 的 float vector b。
请建议一种在常见桌面处理器 (i5/i7) 上尽可能快地计算 b×A 的方法。
背景。上述产品处于紧密循环中,因此其快速计算至关重要。目前我正在使用以下朴素算法:
inline void Critical(const float A[48][16], const float b[48], float x[16] ) const {
for (int u = 0; u < 48; ++u) {
for (int i = 0; i < 16; ++i) {
x[i] += A[u][i] * b[u];
}
}
}
我曾尝试将乘法卸载到 MKL 的 SGEMV,然后再卸载到 SGEMM,但无济于事。简单的实现在 i7 4800MQ 上仍然运行得更快。
编辑 1。
采用静态分配的本征值与朴素算法的速度大致相同。
我试过打开优化的 GCC5、ICC 和 VC2015U3(/O3、快速数学、mtune=native 等)。 ICC 似乎在 Linux 和 Windows 上都能生成最快的代码。
EDIT2。
A的元素很小,max(|A_ui|) = 256。同理max(|b_u|) = 1.0。只要算法比原始算法快,合理的近似解也是可以接受的。
最佳答案
MKL 通常有很大的开销,因此对于小矩阵的性能很差。另一方面,Eigen 具有固定大小的矩阵优化,在小矩阵上表现良好。您还需要正确的编译选项才能使用 Eigen 获得最大性能。
#include <iostream>
#include <Eigen/Eigen>
#include <omp.h>
inline void Critical(const float A[48][16], const float b[48], float x[16]) {
for (int i = 0; i < 16; ++i) {
x[i] = 0;
}
for (int u = 0; u < 48; ++u) {
for (int i = 0; i < 16; ++i) {
x[i] += A[u][i] * b[u];
}
}
}
int main() {
float a[48][16] = { 0 };
float b[48] = { 0 };
float x[16] = { 0 };
Eigen::Matrix<float, 48, 16> ma;
Eigen::Matrix<float, 1, 48> mb;
Eigen::Matrix<float, 1, 16> mx;
ma.setRandom();
mb.setRandom();
for (int i = 0; i < 48; ++i) {
for (int j = 0; j < 16; ++j) {
a[i][j] = ma(i, j);
}
b[i] = mb(i);
}
double t;
int n = 10000000;
t = omp_get_wtime();
for (int i = 0; i < n; ++i) {
Critical(a, b, x);
}
t = omp_get_wtime() - t;
std::cout << "for-loop time: " << t << std::endl;
t = omp_get_wtime();
for (int i = 0; i < n; ++i) {
mx = mb * ma;
}
t = omp_get_wtime() - t;
std::cout << "eigen time: " << t << std::endl;
Eigen::Map < Eigen::Matrix<float, 1, 16> > native_x(x);
std::cout << "error: " << (mx - native_x).norm() << std::endl;
return 0;
}
使用 g++ 5.2.1 编译时
$ g++ -fopenmp -O3 -DNDEBUG -I~/program/include/eigen3 -o test/gemv test/gemv.cpp && test/gemv
for-loop time: 2.53004
eigen time: 1.17458
error: 1.49636e-06
用icpc 16.0.2编译时
$ icpc -fopenmp -fast -DNDEBUG -I~/program/include/eigen3 -o test/gemv test/gemv.cpp && test/gemv
for-loop time: 1.03432
eigen time: 1.01054
error: 1.40769e-06
icpc 在 fop-loops 上使用自动矢量化,因此性能与 Eigen 相同。
关于c++ - 快速单精度矩阵乘以 vector 积,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38373373/
我知道存储单个值(或 double 值)不可能非常精确。因此,例如存储 125.12 可能会得到 125.1200074788。现在在delphi中,它们是一些有用的函数,例如samevalue或co
假设 N 是根据 IEEE754 单精度标准表示的任意数字。我想在 IEEE754 中再次找到 N/2 的最精确可能表示。 我想找到一个通用算法(用文字描述,我只想考虑必要的步骤和情况)来获得表示。
我将许多经度和纬度存储为 doubles,我想知道我是否可以将它们存储为 floats。 要回答这个问题,我需要知道 single precision floating point number 的近
我需要以一种不会丢失任何信息的方式将单精度数字表示为文本(这样我就可以得到相同的数字,可能会忽略 NaN 等),但没有太多的伪数字 - 所以单精度 0.1 出来了“0.1”不是“0.100000001
这是一个家庭作业问题。我已经在网上找到了很多代码,包括StackOverflow中的一些代码。但我只想要概念而不是代码。我想自己实现。所以我要实现的功能是: float_twice - 返回浮点参数
我需要从二进制文件中读取值。数据格式为 IBM 单精度 float (4 字节十六进制指数数据)。我有 C++ 代码从文件中读取并取出每个字节并像这样存储它 unsigned char buf[BU
我需要从二进制文件中读取值。数据格式为 IBM 单精度 float (4 字节十六进制指数数据)。我有 C++ 代码从文件中读取并取出每个字节并像这样存储它 unsigned char buf[BU
假设低端微处理器没有浮点运算,我需要生成一个 IEE754 单精度浮点格式数字以推送到文件。 我需要编写一个函数,它接受三个整数(符号、整数和分数),并返回一个字节数组,其中 4 个字节是 IEEE
我有一个由 NumPy 创建的二进制矩阵。该矩阵有 5 行和 32 列。 array([[1, 1, ..., 1, 1], [0, 1, ..., 0, 1], [1, 1, ...,
我正在尝试通过选择分数 位来创建浮点 NaN。但似乎 python float 在解释 NaN 时总是设置第 23 个小数位(IEEE754 单)。 所以,我的问题是:是否可以在不设置第 23 位的情
有没有办法转换 IEEE 单精度(32 位)列表: String result = getdata(); String[] floats = result.split(","); List float
为什么单精度 float 具有 7 位精度(或 double 15-16 位精度)? 谁能解释一下我们是如何根据分配给 float(Sign(32) Exponent(30-23), Fraction
今天我发现自己在做一些位操作,我决定稍微刷新一下我的浮点知识! 在我看到这个之前,一切都很好: ... 23 fraction bits of the significand appear in th
我想在我的目标板上测试以下内容: 'float' 是使用 IEEE 754 单精度(32 位)浮点变量实现的吗? 'double' 是否使用 IEEE 754 double (64 位)浮点变量实现?
我知道我是否有这样的号码: 1 | 1001 0001 | 0011 0011 0000 0001 0101 000 1 sign bit | 8 bit biased exponent | 23
我确定我遗漏了一些东西。我使用这个代码: int bitsVal = Float.floatToIntBits(f); String bitsString = Integer.toString(bit
我花了几个小时将小数位数更改为 8,而不是使用 VBA Access 的 2。我找到了一些使用此标签来更改系统属性的解决方案: 公共(public)常量 LOCALE_ILZERO = &H12 但它
我是一名优秀的程序员,十分优秀!