gpt4 book ai didi

c++ - 为什么为 x64 平台编译的 C++ 程序比为 x86 平台编译的慢?

转载 作者:可可西里 更新时间:2023-11-01 15:03:30 27 4
gpt4 key购买 nike

我在英特尔酷睿 i5-2500 上的 Visual Studio 2010 中为 x64 和 x86 平台编写并编译了程序。 x64 版本执行大约需要 19 秒,x86 大约需要 17 秒。这种行为的原因可能是什么?

#include "timer.h"

#include <vector>
#include <iostream>
#include <algorithm>
#include <string>
#include <sstream>

/********************DECLARATIONS************************************************/
class Vector
{
public:
Vector():x(0),y(0),z(0){}

Vector(double x, double y, double z)
: x(x)
, y(y)
, z(z)
{
}

double x;
double y;
double z;
};


double Dot(const Vector& a, const Vector& b)
{
return a.x * b.x + a.y * b.y + a.z * b.z;
}


class Vector2
{
public:
typedef double value_type;

Vector2():x(0),y(0){}

Vector2(double x, double y)
: x(x)
, y(y)
{
}

double x;
double y;
};

/******************************TESTS***************************************************/

void Test(const std::vector<Vector>& m, std::vector<Vector2>& m2)
{
Vector axisX(0.3f, 0.001f, 0.25f);
Vector axisY(0.043f, 0.021f, 0.45f);

std::vector<Vector2>::iterator i2 = m2.begin();

std::for_each(m.begin(), m.end(),
[&](const Vector& v)
{
Vector2 r(0,0);
r.x = Dot(axisX, v);
r.y = Dot(axisY, v);

(*i2) = r;
++i2;
});
}


int main()
{
cpptask::Timer timer;

int len2 = 300;
size_t len = 5000000;
std::vector<Vector> m;
m.reserve(len);
for (size_t i = 0; i < len; ++i)
{
m.push_back(Vector(i * 0.2345, i * 2.67, i * 0.98));
}

/***********************************************************************************/
{
std::vector<Vector2> m2(m.size());
double time = 0;
for (int i = 0; i < len2; ++i)
{
timer.Start();
Test(m, m2);
time += timer.End();
}
std::cout << "Dot product double - " << time / len2 << std::endl;
}
/***********************************************************************************/


return 0;
}

最佳答案

简短回答:这是一个编译器问题。 x64 优化器失败。


长答案:

如果禁用 SSE2,此 x86 版本会非常慢。但我能够在 x86 中启用 SSE2 的情况下重现结果。

如果您深入了解最内层循环的程序集。 x64 版本最后有两个额外的内存拷贝。

x86:

$LL71@main:
movsd xmm2, QWORD PTR [eax-8]
movsd xmm0, QWORD PTR [eax-16]
movsd xmm3, QWORD PTR [eax]
movapd xmm1, xmm0
mulsd xmm0, QWORD PTR __real@3fa60418a0000000
movapd xmm7, xmm2
mulsd xmm2, QWORD PTR __real@3f95810620000000
mulsd xmm7, xmm5
mulsd xmm1, xmm4
addsd xmm1, xmm7
movapd xmm7, xmm3
mulsd xmm3, QWORD PTR __real@3fdcccccc0000000
mulsd xmm7, xmm6
add eax, 24 ; 00000018H
addsd xmm1, xmm7
addsd xmm0, xmm2
movq QWORD PTR [ecx], xmm1
addsd xmm0, xmm3
movq QWORD PTR [ecx+8], xmm0
lea edx, DWORD PTR [eax-16]
add ecx, 16 ; 00000010H
cmp edx, esi
jne SHORT $LL71@main

x64:

$LL175@main:
movsdx xmm3, QWORD PTR [rdx-8]
movsdx xmm5, QWORD PTR [rdx-16]
movsdx xmm4, QWORD PTR [rdx]
movapd xmm2, xmm3
mulsd xmm2, xmm6
movapd xmm0, xmm5
mulsd xmm0, xmm7
addsd xmm2, xmm0
movapd xmm1, xmm4
mulsd xmm1, xmm8
addsd xmm2, xmm1
movsdx QWORD PTR r$109492[rsp], xmm2
mulsd xmm5, xmm9
mulsd xmm3, xmm10
addsd xmm5, xmm3
mulsd xmm4, xmm11
addsd xmm5, xmm4
movsdx QWORD PTR r$109492[rsp+8], xmm5
mov rcx, QWORD PTR r$109492[rsp]
mov QWORD PTR [rax], rcx
mov rcx, QWORD PTR r$109492[rsp+8]
mov QWORD PTR [rax+8], rcx
add rax, 16
add rdx, 24
lea rcx, QWORD PTR [rdx-16]
cmp rcx, rbx
jne SHORT $LL175@main

x64 版本在循环末尾有更多(无法解释的)移动。它看起来像是某种内存到内存的数据复制。

编辑:

事实证明,x64 优化器无法优化以下拷贝:

(*i2) = r;

这就是为什么内循环有两个额外的内存拷贝。如果将循环更改为:

std::for_each(m.begin(), m.end(),
[&](const Vector& v)
{
i2->x = Dot(axisX, v);
i2->y = Dot(axisY, v);
++i2;
});

这消除了拷贝。现在 x64 版本和 x86 版本一样快:

x86: 0.0249423
x64: 0.0249348

经验教训:编译器并不完美。

关于c++ - 为什么为 x64 平台编译的 C++ 程序比为 x86 平台编译的慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9283717/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com