- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我发现下面的循环
std::vector<int> x,y,z;
...
unsigned int res=0;
auto p=x.data();
auto q=y.data();
auto r=z.data();
for(unsigned int i=0;i<N;++i){
res+=*p++ +*q++ +*r++;
}
运行速度几乎是这个的两倍,它只是将指针打包在一个结构中:
struct pdata{int *px,*py,*pz;};
unsigned int res=0;
pdata d{x.data(),y.data(),z.data()};
for(unsigned int i=0;i<N;++i){
res+=*d.px++ +*d.py++ +*d.pz++;
}
return res;
这是一个已知的性能问题吗?请在下面找到 Visual C++ 2015 在 32 位 (x86) Release模式(默认设置)、Windows 7 64 位、Intel Core i5-2520M @2.5GHz 下的完整程序和性能测量:
#include <algorithm>
#include <array>
#include <chrono>
#include <cmath>
#include <numeric>
std::chrono::high_resolution_clock::time_point measure_start,measure_pause;
template<typename F>
double measure(F f)
{
using namespace std::chrono;
static const int num_trials=10;
static const milliseconds min_time_per_trial(200);
std::array<double,num_trials> trials;
volatile decltype(f()) res; /* to avoid optimizing f() away */
for(int i=0;i<num_trials;++i){
int runs=0;
high_resolution_clock::time_point t2;
measure_start=high_resolution_clock::now();
do{
res=f();
++runs;
t2=high_resolution_clock::now();
}while(t2-measure_start<min_time_per_trial);
trials[i]=duration_cast<duration<double>>(t2-measure_start).count()/runs;
}
(void)res; /* var not used warn */
std::sort(trials.begin(),trials.end());
return std::accumulate(
trials.begin()+2,trials.end()-2,0.0)/(trials.size()-4);
}
template<typename F>
double measure(unsigned int n,F f)
{
double t=measure(f);
return (t/n)*10E9;
}
#include <iostream>
#include <vector>
int main()
{
static const unsigned int N=100000;
std::vector<int> x(N),y(N),z(N);
for(int i=0;i<N;i++){
x[i]=i;
y[i]=i+1;
z[i]=i+2;
}
std::cout<<measure(N,[&]{
unsigned int res=0;
auto p=x.data();
auto q=y.data();
auto r=z.data();
for(unsigned int i=0;i<N;++i){
res+=*p++ +*q++ +*r++;
}
return res;
})<<",";
std::cout<<measure(N,[&]{
struct pdata{int *px,*py,*pz;};
unsigned int res=0;
pdata d{x.data(),y.data(),z.data()};
for(unsigned int i=0;i<N;++i){
res+=*d.px++ +*d.py++ +*d.pz++;
}
return res;
})<<"\n";
}
输出
4.24541,7.44588
谢谢,
最佳答案
迷人。这似乎确实是一个性能/优化问题。循环 #1 使用 MMX 操作码:
for(unsigned int i = 0; i < N; ++i) {
res += *p++ + *q++ + *r++;
00C812C0 lea eax,[eax+20h]
00C812C3 lea esi,[esi+20h]
00C812C6 lea edx,[edx+20h]
00C812C9 movups xmm0,xmmword ptr [esi-20h]
00C812CD movups xmm1,xmmword ptr [eax-20h]
00C812D1 paddd xmm1,xmm0
00C812D5 movups xmm0,xmmword ptr [edx-20h]
00C812D9 paddd xmm1,xmm0
00C812DD paddd xmm3,xmm1
00C812E1 movups xmm0,xmmword ptr [esi-10h]
00C812E5 movups xmm1,xmmword ptr [eax-10h]
00C812E9 paddd xmm1,xmm0
00C812ED movups xmm0,xmmword ptr [edx-10h]
00C812F1 paddd xmm1,xmm0
00C812F5 paddd xmm2,xmm1
00C812F9 sub ecx,1
00C812FC jne
while Loop #2 使用标准操作码:
for(unsigned int i = 0; i < N; ++i) {
res += *d.px++ + *d.py++ + *d.pz++;
00C81340 mov eax,dword ptr [edi]
00C81342 lea ecx,[ecx+14h]
00C81345 add eax,dword ptr [esi]
00C81347 lea edi,[edi+14h]
00C8134A add eax,dword ptr [ecx-14h]
00C8134D lea esi,[esi+14h]
00C81350 mov edx,dword ptr [edi-4]
00C81353 add ebx,eax
00C81355 mov eax,dword ptr [edi-10h]
00C81358 add eax,dword ptr [esi-10h]
00C8135B add eax,dword ptr [ecx-10h]
00C8135E add edx,dword ptr [esi-4]
for(unsigned int i = 0; i < N; ++i) {
res += *d.px++ + *d.py++ + *d.pz++;
00C81361 add ebx,eax
00C81363 mov eax,dword ptr [edi-0Ch]
00C81366 add eax,dword ptr [esi-0Ch]
00C81369 add eax,dword ptr [ecx-0Ch]
00C8136C add edx,dword ptr [ecx-4]
00C8136F add ebx,eax
00C81371 mov eax,dword ptr [edi-8]
00C81374 add eax,dword ptr [esi-8]
00C81377 add eax,dword ptr [ecx-8]
00C8137A add ebx,eax
00C8137C add ebx,edx
00C8137E sub dword ptr [ebp-4],1
00C81382 jne <lambda_90dad2b8e1a29d982a00cc5b5b0ef516>::operator()+20h (0C81340h)
我对 X86/MMX 汇编器几乎一无所知,但显然 MMX 的东西要快得多。我不知道为什么在使用结构时它没有那么优化。我看到两者之间唯一真正的区别是您在结构中声明了 int*
,但是您的 auto
变量应该是 const int*
。但我已经对 const 进行了一些尝试,它并没有改变任何东西。
关于c++ - 在结构中存储指针时,Visual Studio 2015 循环性能下降,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47683375/
我想根据我使用的 visual studio 版本编译不同的东西,比如 #if VISUAL_STUDIO_VERSION > 2015 eventH?.Invoke(this, EventArgs.
在 Visual Studio 2010 中调试并将鼠标悬停在变量名称上时,我可以选择使用 3 种不同的内置可视化工具:文本、XML 和 HTML。 这是我所指的示例: 由于我越来越多地使用基于 JS
我将可视化编程语言理解为允许程序员在屏幕上操作图形(而不是文本)对象以构建功能的语言。 我在 C#、VB 等中看到的最接近的东西是 RAD 控件,但这只是组成 UI 和最简单的功能——甚至与语言本身无
我目前正在使用 Visual Studio 2015 来编程 ASP.NET Core 应用程序。我对安装 Visual Studio 2017 有以下疑问: 什么被认为是最佳实践和/或最干净的方法?
尝试从扩展和更新获取 Visual Studio 扩展时,出现以下错误:- 向 visualstudiogallery.msdn.microsoft.com/Services/VStudio/Exte
我已经开发了Windows服务,并且该服务正在我的帐户下在本地计算机上运行。当我尝试通过在Visual Studio 2008中将其作为一个过程附加该服务来调试该服务时,我得到“无法附加到该过程。 V
作为标准安装的一部分,Visual Studio Code 带有一个名为“Monokai Dimmed”的颜色主题。 有没有办法将它移植到 Visual Studio 2015?我检查了社区主题( h
Visual Studio Community Edition是否可以使用Visual Studio Online帐户上的存储库? 我一直为包含在Online帐户中的Visual Studio Onl
我正在使用文本可视化工具在 Visual Studio 中调试字符串变量。然而,似乎字符串中间的大部分不见了。这背后的原因是什么? 最佳答案 Visual Studio 中的 Text Visuali
我正在开始一个涉及使用多个 SDK 的新项目,包括: 英特尔凌动开发者 SDK 文本转语音 SDK(建议?) 某种网络摄像头和增强现实支持(建议?) 我目前有 2008,但我也可以安装 2010。是否
我想知道,如果我发送一个解决方案文件夹(它是用 visual studio C# 编写的),您可以在 visual studio for mac 中打开解决方案吗? 在visual studio 20
有没有办法在 Visual Studio Code 和 Visual Studio 中设置相同的快捷方式(而不必每次都手动更改它们)? 例如,我在 Visual Studio Code 中经常使用 A
我无法启用 实时可视化树 在 Visual Studio 2017 用于 UWP 应用程序 (C#)。这个工具在 VS2015 上工作,但在 VS2017 中从来没有为我工作过。它对我的 WPF 项目
我刚开始了解 Visual Studio Code。我想知道,我可以将 Visual Studio 替换为所有 .NET 开发相关的工作吗? 我可以节省 Visual Studio 许可的成本吗? V
我安装了具有有效许可证(Visual Studio 订阅)的 Visual Studio 2019 企业版(VS 2019 16.1.4),它运行良好。 突然之间,当我尝试打开项目或项目中的任何文件时
Visual Studio 2015 Pro 提供以下 错误 : error BC36716: Visual Basic 9.0 does not support implicit line cont
我正在我的 PC 中使用 .net Framework 2.0 和 Visual C#(Microsoft Visual Studio 2008)开发 Windows 应用程序。 完成我的项目后,我必
有什么方法可以在启动 VS 时禁用 VA X 并仅在需要时将其重新打开?因为它会导致一些滞后。我似乎在 VS 的选项或 VA 的选项中都找不到该选项。 最佳答案 持shift在 Visual Stud
我可以将 Visual Studio 命令提示符 与免费的 Visual C# Express 一起使用吗? Visual Studio 命令提示符 被引用 here : Run 'Visual St
这很容易成为 Visual Studio 历史上最烦人的“功能”之一,我不明白它为什么存在 -- 曾经 . 为什么 CodePlex 项目需要关心我使用的是什么版本的 Visual Studio? 在
我是一名优秀的程序员,十分优秀!