gpt4 book ai didi

c++ - 在使用英特尔内部函数对 SIMD 代码进行编程时,如何强制使用 vmovapd 而不是 vmovupd?

转载 作者:搜寻专家 更新时间:2023-10-31 02:11:47 24 4
gpt4 key购买 nike

我有一些简单的 SIMD 代码,它使用 intel intrinsic(使用标志/arch:AVX2)将 2 个双数组相乘,我将它与没有 simd 的标准循环进行比较:

int const N = 67108864;
__declspec(align(32)) double* ar1 = new double[N];
__declspec(align(32)) double* ar2 = new double[N];
__declspec(align(32)) double* ar3 = new double[N];

for (size_t i = 0; i < N; i++)
{
ar1[0] = 3.0;
ar2[0] = 2.0;
}

for (int s = 0; s < 20; s++)
{
auto begin = chrono::steady_clock::now();
for (size_t i = 0; i < N; i++)
{
ar3[i] = ar1[i] * ar2[i];
}
cout << "n: " << chrono::duration_cast<chrono::milliseconds>(chrono::steady_clock::now() - begin).count() << endl;


begin = chrono::steady_clock::now();
for (size_t i = 0; i < N; i+=4)
{
__m256d in1 = _mm256_load_pd(&ar1[i]);
__m256d in2 = _mm256_load_pd(&ar2[i]);

_mm256_store_pd(&ar3[i], _mm256_mul_pd(in1, in2));
}
cout << "s: " << chrono::duration_cast<chrono::milliseconds>(chrono::steady_clock::now() - begin).count() << endl;
}

但是,我无法获得 simd 版本的任何性能改进。我查看了汇编,我猜这是因为 vmovupd 指令应该使用 vmovapd。为什么当我使用 __declspec(align(32)) 时它对未对齐的打包数据使用 mov?

整个 simd 循环:

61:         for (size_t i = 0; i < N; i+=4)
62: {
63: __m256d in1 = _mm256_load_pd(&ar1[i]);
64: __m256d in2 = _mm256_load_pd(&ar2[i]);
00007FF62ED612A0 vmovupd ymm1,ymmword ptr [rax]
65:
66: _mm256_store_pd(&ar3[i], _mm256_mul_pd(in1, in2));
00007FF62ED612A4 vmulpd ymm1,ymm1,ymmword ptr [rax+r13]
00007FF62ED612AA vmovupd ymmword ptr [rdx+rax],ymm1
00007FF62ED612AF lea rax,[rax+20h]
00007FF62ED612B3 sub rcx,1
00007FF62ED612B7 vzeroupper
00007FF62ED612BA jne main+2A0h (07FF62ED612A0h)
67: }

我是代码矢量化的新手,所以我很乐意为我所犯的任何常见错误提供指导。

最佳答案

我已经遇到过这个问题。我找到了以下解决方案:

inline __m256d Load(const double * p)
{
#ifdef _MSC_VER
return _mm256_castsi256_pd(_mm256_load_si256((__m256i*)p));
#else
return _mm256_load_pd(p);
#endif
}

float 类型的类似解决方案:

inline __m256 Load(const float * p)
{
#ifdef _MSC_VER
return _mm256_castsi256_ps(_mm256_load_si256((__m256i*)p));
#else
return _mm256_load_ps(p);
#endif
}

我刚刚检查过,它有效。但是为了欺骗 Visual Studio 编译器,你必须使用动态分配的指针。否则编译器不使用 VMOVDQA 指令。

#include <immintrin.h>

int main()
{
float * ps = (float*)_mm_malloc(40, 32);
double * pd = (double*)_mm_malloc(40, 32);

__m256 s = Load(ps);
//00007FF79FF81325 vmovdqa ymm1,ymmword ptr [rdi]
__m256d d = Load(pd);
//00007FF79FF8132F vmovdqa ymm0,ymmword ptr [rax]

_mm256_storeu_ps(ps, s);
_mm256_storeu_pd(pd, d);

_mm_free(ps);
_mm_free(pd);
}

关于c++ - 在使用英特尔内部函数对 SIMD 代码进行编程时,如何强制使用 vmovapd 而不是 vmovupd?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43091898/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com