gpt4 book ai didi

c++ - 在结构中存储指针时,Visual Studio 2015 循环性能下降

转载 作者:搜寻专家 更新时间:2023-10-31 01:30:33 26 4
gpt4 key购买 nike

我发现下面的循环

std::vector<int> x,y,z;
...
unsigned int res=0;
auto p=x.data();
auto q=y.data();
auto r=z.data();
for(unsigned int i=0;i<N;++i){
res+=*p++ +*q++ +*r++;
}

运行速度几乎是这个的两倍,它只是将指针打包在一个结构中:

struct pdata{int *px,*py,*pz;};

unsigned int res=0;
pdata d{x.data(),y.data(),z.data()};
for(unsigned int i=0;i<N;++i){
res+=*d.px++ +*d.py++ +*d.pz++;
}
return res;

这是一个已知的性能问题吗?请在下面找到 Visual C++ 2015 在 32 位 (x86) Release模式(默认设置)、Windows 7 64 位、Intel Core i5-2520M @2.5GHz 下的完整程序和性能测量:

#include <algorithm>
#include <array>
#include <chrono>
#include <cmath>
#include <numeric>

std::chrono::high_resolution_clock::time_point measure_start,measure_pause;

template<typename F>
double measure(F f)
{
using namespace std::chrono;

static const int num_trials=10;
static const milliseconds min_time_per_trial(200);
std::array<double,num_trials> trials;
volatile decltype(f()) res; /* to avoid optimizing f() away */

for(int i=0;i<num_trials;++i){
int runs=0;
high_resolution_clock::time_point t2;

measure_start=high_resolution_clock::now();
do{
res=f();
++runs;
t2=high_resolution_clock::now();
}while(t2-measure_start<min_time_per_trial);
trials[i]=duration_cast<duration<double>>(t2-measure_start).count()/runs;
}
(void)res; /* var not used warn */

std::sort(trials.begin(),trials.end());
return std::accumulate(
trials.begin()+2,trials.end()-2,0.0)/(trials.size()-4);
}

template<typename F>
double measure(unsigned int n,F f)
{
double t=measure(f);
return (t/n)*10E9;
}

#include <iostream>
#include <vector>

int main()
{
static const unsigned int N=100000;
std::vector<int> x(N),y(N),z(N);

for(int i=0;i<N;i++){
x[i]=i;
y[i]=i+1;
z[i]=i+2;
}

std::cout<<measure(N,[&]{
unsigned int res=0;
auto p=x.data();
auto q=y.data();
auto r=z.data();
for(unsigned int i=0;i<N;++i){
res+=*p++ +*q++ +*r++;
}
return res;
})<<",";

std::cout<<measure(N,[&]{
struct pdata{int *px,*py,*pz;};

unsigned int res=0;
pdata d{x.data(),y.data(),z.data()};
for(unsigned int i=0;i<N;++i){
res+=*d.px++ +*d.py++ +*d.pz++;
}
return res;
})<<"\n";
}

输出

4.24541,7.44588

谢谢,

最佳答案

迷人。这似乎确实是一个性能/优化问题。循环 #1 使用 MMX 操作码:

for(unsigned int i = 0; i < N; ++i) {
res += *p++ + *q++ + *r++;
00C812C0 lea eax,[eax+20h]
00C812C3 lea esi,[esi+20h]
00C812C6 lea edx,[edx+20h]
00C812C9 movups xmm0,xmmword ptr [esi-20h]
00C812CD movups xmm1,xmmword ptr [eax-20h]
00C812D1 paddd xmm1,xmm0
00C812D5 movups xmm0,xmmword ptr [edx-20h]
00C812D9 paddd xmm1,xmm0
00C812DD paddd xmm3,xmm1
00C812E1 movups xmm0,xmmword ptr [esi-10h]
00C812E5 movups xmm1,xmmword ptr [eax-10h]
00C812E9 paddd xmm1,xmm0
00C812ED movups xmm0,xmmword ptr [edx-10h]
00C812F1 paddd xmm1,xmm0
00C812F5 paddd xmm2,xmm1
00C812F9 sub ecx,1
00C812FC jne

while Loop #2 使用标准操作码:

for(unsigned int i = 0; i < N; ++i) {
res += *d.px++ + *d.py++ + *d.pz++;
00C81340 mov eax,dword ptr [edi]
00C81342 lea ecx,[ecx+14h]
00C81345 add eax,dword ptr [esi]
00C81347 lea edi,[edi+14h]
00C8134A add eax,dword ptr [ecx-14h]
00C8134D lea esi,[esi+14h]
00C81350 mov edx,dword ptr [edi-4]
00C81353 add ebx,eax
00C81355 mov eax,dword ptr [edi-10h]
00C81358 add eax,dword ptr [esi-10h]
00C8135B add eax,dword ptr [ecx-10h]
00C8135E add edx,dword ptr [esi-4]
for(unsigned int i = 0; i < N; ++i) {
res += *d.px++ + *d.py++ + *d.pz++;
00C81361 add ebx,eax
00C81363 mov eax,dword ptr [edi-0Ch]
00C81366 add eax,dword ptr [esi-0Ch]
00C81369 add eax,dword ptr [ecx-0Ch]
00C8136C add edx,dword ptr [ecx-4]
00C8136F add ebx,eax
00C81371 mov eax,dword ptr [edi-8]
00C81374 add eax,dword ptr [esi-8]
00C81377 add eax,dword ptr [ecx-8]
00C8137A add ebx,eax
00C8137C add ebx,edx
00C8137E sub dword ptr [ebp-4],1
00C81382 jne <lambda_90dad2b8e1a29d982a00cc5b5b0ef516>::operator()+20h (0C81340h)

我对 X86/MMX 汇编器几乎一无所知,但显然 MMX 的东西要快得多。我不知道为什么在使用结构时它没有那么优化。我看到两者之间唯一真正的区别是您在结构中声明了 int*,但是您的 auto 变量应该是 const int*。但我已经对 const 进行了一些尝试,它并没有改变任何东西。

关于c++ - 在结构中存储指针时,Visual Studio 2015 循环性能下降,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47683375/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com