- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
与使用 *
和 +
相比,使用 fmaf
函数时我遇到了巨大的性能下降。我在两台 Linux 机器上使用 g++ 4.4.3 和 g++ 4.6.3
在两台不同的机器上,如果不使用 fmaf
填充 myOut
vector ,则以下代码运行得更快。
带有 g++ 4.6.3 和 Intel(R) Xeon(R) CPU E5-2650 @ 2.00GHz 的服务器
$ ./a.out fmaf
Time: 1.55008 seconds.
$ ./a.out muladd
Time: 0.403018 seconds.
带有 g++ 4.4.3 和 Intel(R) Xeon(R) CPU X5650 @ 2.67GHz 的服务器
$ ./a.out fmaf
Time: 0.547544 seconds.
$ ./a.out muladd
Time: 0.34955 seconds.
fmaf
版本(除了避免额外的汇总然后更精确)不应该更快吗?
#include <stddef.h>
#include <iostream>
#include <math.h>
#include <string.h>
#include <stdlib.h>
#include <sys/time.h>
int main(int argc, char** argv) {
if (argc != 2) {
std::cout << "missing parameter: 'muladd' or 'fmaf'"
<< std::endl;
exit(-1);
}
struct timeval start,stop,result;
const size_t mySize = 1e6*100;
float* myA = new float[mySize];
float* myB = new float[mySize];
float* myC = new float[mySize];
float* myOut = new float[mySize];
gettimeofday(&start,NULL);
if (!strcmp(argv[1], "muladd")) {
for (size_t i = 0; i < mySize; ++i) {
myOut[i] = myA[i]*myB[i]+myC[i];
}
} else if (!strcmp(argv[1], "fmaf")) {
for (size_t i = 0; i < mySize; ++i) {
myOut[i] = fmaf(myA[i], myB[i], myC[i]);
}
} else {
std::cout << "specify 'muladd' or 'fmaf'" << std::endl;
exit(-1);
}
gettimeofday(&stop,NULL);
timersub(&stop,&start,&result);
std::cout << "Time: " << result.tv_sec + result.tv_usec/1000.0/1000.0
<< " seconds." << std::endl;
delete []myA;
delete []myB;
delete []myC;
delete []myOut;
}
最佳答案
您问题的答案称为向量化。当使用 g++ -O3 -S
编译时,比较 g++ 4.4.6 为您的代码的两个部分生成的汇编代码:
muladd
部分:
.L10:
movaps %xmm2, %xmm0
movaps %xmm2, %xmm1
movlps (%rbx,%rax), %xmm0
movlps (%r12,%rax), %xmm1
movhps 8(%rbx,%rax), %xmm0
movhps 8(%r12,%rax), %xmm1
mulps %xmm1, %xmm0
movaps %xmm2, %xmm1
movlps 0(%rbp,%rax), %xmm1
movhps 8(%rbp,%rax), %xmm1
addps %xmm1, %xmm0
movaps %xmm0, 0(%r13,%rax)
addq $16, %rax
cmpq $400000000, %rax
jne .L10
所有这些 *ps
都对压缩单精度 数字执行操作。这些是 SSE 指令,因此每个包由每个数组的 4 个连续元素组成。
实现 fmaf
版本的循环是:
.L14:
movss (%rbx,%r14,4), %xmm0
movss 0(%rbp,%r14,4), %xmm2
movss (%r12,%r14,4), %xmm1
call fmaf
movss %xmm0, 0(%r13,%r14,4)
addq $1, %r14
cmpq $100000000, %r14
jne .L14
此处标量 SSE 指令用于一次将数据移动一个数组元素并且在每次迭代时调用 fmaf
函数。
循环的 vector 部分更长,但执行的迭代次数减少了 4 倍。
关于c++ - fnaf奇怪的表现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12977128/
我正在用 C++ 开发一个程序,我必须实现一个 cron。由于不同的原因,这个 cron 应该每小时和每 24 小时执行一次。我的第一个想法是创建一个独立的 pthread 并在每次 1h 内休眠。这
我需要向同一场景几何添加多个体素(立方体等于),但每个体素具有不同的纹理。 我的体素超过 500 个,导致性能出现严重错误。 这是我的代码: texture = crearTextura(voxel.
对于 MySQL 数据库,我有 2 个场景,我不确定该选择哪一个,并且对于一些表我也遇到了同样的困境。 我正在制作一个仅供成员(member)访问的网络应用程序。每个成员都有自己的交易、费用和“列表”
我想知道一个简单的事情: 当设置一个被所有 child 继承的样式时,是否建议最具体? Structure: html > body > parent_content > wrapper > p 我想
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
这些天我正在阅读有关 JPA 的内容。我了解到可以在 JPQL 中使用 explicit 或 implicit JOIN。 显式加入 em.createQuery(“SELECT b.title, p
我有一种情况需要连接几个字符串以形成一个类的 id。基本上,我只是在列表中循环以获取对象的 ToString 值,然后将它们连接起来。 foreach (MyObject o in myList)
我正在检查我的游戏在拖尾效果下的性能会降低多少。但我注意到每秒的操作次数更多了。这怎么可能? 这是怎么回事... context.fillRect(0, 0, 500, 500); // cl
如果我可以选择使用全局变量或传递变量,哪个选项在速度和内存使用方面更好? // global variable function func(){ global $var; echo $var;
我有一个类似这样的表“tbl”:ID bigint(20) - 主键,自增字段1字段2字段3 该表有 60 万多行。 查询:SELECT * from tbl ORDER by ID LIMIT 60
谁能告诉我,我如何比较 TSP 最优和启发式算法?我已经实现了 TSP,但不知道如何比较它们。事实上,我怎样才能找到 TSP 的最优成本?有什么方法或猜测吗? 谢谢 最佳答案 用众所周知的基准实例检查
我有一个 NSTextStorage里面有长文本(比如一本书有 500 页,当前字体在设备上超过 9000 页)。我以这种方式为 textcontainer 分发此文本: let textStorag
我有一个根据邮政编码搜索项目的应用程序。 在搜索邮政编码时,我返回了来自该城市/社区的所有产品(通过解析邮政编码完成)。 我现在需要根据与原始邮政编码的距离对这些产品进行分类。 我将纬度/经度存储在数
我有许多进程(大约100到1000个进程),每个进程都必须向其他进程(例如大约10个)发送一些数据。 (通常,但不一定总是这样,如果A发送给B,B也发送给A。)每个进程都知道必须从哪个进程接收多少数据
我知道无状态组件使用起来更舒服(在特定场景下),但是既然你不能使用shouldComponentUpdate,这是否意味着组件将在每次props更改时重新渲染?我的问题是,使用带有智能 shouldC
我正在研究 Google Pagespeed 的加速页面加载时间指南列表。其中之一是缩小 CSS 和 JS 文件。 由于这些文件经常更改,我正在考虑使用 PHP 脚本根据请求(来自浏览器)即时缩小此脚
我正在尝试从下表构建 SQL 查询(示例): Example of table with name "performances" 这是带有运动表现的表格。我想从这个表中选择每个学科和一组一个或多个类别
假设我们有一个字符串 var "sA",我想检查字符串 "123"是否在 sA 的末尾。 什么更好,为什么: if(sA.length() > 2) sA.substr(sA.length()-3)
关于受这篇文章启发的可参数化查询 LINQ group by property as a parameter我获得了一个很好的参数化查询,但在性能上有一个缺点。 public static void
| 和| 之间有什么主要区别吗?和 + 从长远来看会影响代码的性能吗?或者都是 O(1)?我正在使用的代码是这样的: uint64_t dostuff(uint64_t a,uint64_t b){
我是一名优秀的程序员,十分优秀!