gpt4 book ai didi

c++ - 使用 AVX 逐项添加两个双数组

转载 作者:太空宇宙 更新时间:2023-11-03 10:43:54 26 4
gpt4 key购买 nike

我需要一个函数来逐项添加两个 double 组的元素并将结果存储在第三个数组中。目前我使用(简体)

void add( double* result, const double* a, const double* b, size_t size) {
memcpy(result, a, size*sizeof(double));
for(size_t i = 0; i < size; ++i) {
result[i] += b[i];
}
}

据我所知,memcpy 函数使用 AVX。为了提高性能,我还想强制使用 AVX 添加。这应该是 AVX 最基本的示例之一,但是我找不到任何关于如何在 C/C++ 中执行此操作的说明。如果可能,我想避免使用外部库。

最佳答案

假设 AVX-512,你需要这样的东西:

void add( double* result, const double* a, const double* b, size_t size) 
{
size_t i = 0;
// Note we are doing as many blocks of 8 as we can. If the size is not divisible by 8
// then we will have some left over that will then be performed serially.
// AVX-512 loop
for( ; i < (size & ~0x7); i += 8)
{
const __m512d kA8 = _mm512_load_pd( &a[i] );
const __m512d kB8 = _mm512_load_pd( &b[i] );

const __m512d kRes = _mm512_add_pd( kA8, kB8 );
_mm512_stream_pd( &res[i], kRes );
}

// AVX loop
for ( ; i < (size & ~0x3); i += 4 )
{
const __m256d kA4 = _mm256_load_pd( &a[i] );
const __m256d kB4 = _mm256_load_pd( &b[i] );

const __m256d kRes = _mm256_add_pd( kA4, kB4 );
_mm256_stream_pd( &res[i], kRes );
}

// SSE2 loop
for ( ; i < (size & ~0x1); i += 2 )
{
const __m128d kA2 = _mm_load_pd( &a[i] );
const __m128d kB2 = _mm_load_pd( &b[i] );

const __m128d kRes = _mm_add_pd( kA2, kB2 );
_mm_stream_pd( &res[i], kRes );
}

// Serial loop
for( ; i < size; i++ )
{
result[i] = a[i] + b[i];
}
}

(请注意,我只是把它从头顶扔掉了)。

从上面的代码中需要注意的一点是,我基本上使用下一个最佳并行代码处理剩余的值。这主要是为了说明您可以并行执行此操作的 3 种可能方法。这些循环将自己完美地工作。例如,如果您不支持 AVX-512,那么您将直接跳转到 AVX 循环。如果即使那样您仍不能支持 AVX,如果您直接跳到 SSE2 循环,那么您将使用您的硬件可以支持的性能最高的循环。

为获得最佳性能,您的数组应与加载中使用的相关大小对齐。因此,对于 AVX-512,您需要 512 位的 64 字节对齐。对于 AVX,256 位或 32 字节对齐。对于 SSE2 128 位或 16 字节对齐。如果您对所有数组使用 64 字节对齐,那么您将始终保持良好的对齐,尽管您可能希望进行 128 字节对齐以便在出现 AVX-1024 时轻松转移到 AVX-1024 ;)

关于c++ - 使用 AVX 逐项添加两个双数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27204712/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com