gpt4 book ai didi

simd - 使用 __m512 (AVX512) 进行水平添加

转载 作者:行者123 更新时间:2023-12-01 22:34:31 24 4
gpt4 key购买 nike

如何在 512 位 AVX 寄存器中使用 float 有效地执行水平加法(即将单个向量中的项加在一起)?对于 128 和 256 位寄存器,可以使用 _mm_hadd_ps 和 _mm256_hadd_ps 来完成,但没有 _mm512_hadd_ps。 Intel 内在函数指南文档 _mm512_reduce_add_ps。它实际上并不对应于单个指令,但它的存在表明存在一种最佳方法,但它似乎没有在 GCC 最新快照附带的头文件中定义,我找不到它的定义与 Google 合作。

我认为“hadd”可以用 _mm512_shuffle_ps 和 _mm512_add_ps 来模拟,或者我可以使用 _mm512_extractf32x4_ps 将 512 位寄存器分解为四个 128 位寄存器,但我想确保我不会错过更好的东西。

最佳答案

INTEL 编译器定义了以下内部函数来进行水平求和

_mm512_reduce_add_ps     //horizontal sum of 16 floats
_mm512_reduce_add_pd //horizontal sum of 8 doubles
_mm512_reduce_add_epi32 //horizontal sum of 16 32-bit integers
_mm512_reduce_add_epi64 //horizontal sum of 8 64-bit integers

但是,据我所知,无论如何,这些都被分解为多个指令,因此我认为您除了对 AVX512 寄存器的上部和下部进行水平求和之外,不会获得任何其他 yield 。

__m256 low  = _mm512_castps512_ps256(zmm);
__m256 high = _mm256_castpd_ps(_mm512_extractf64x4_pd(_mm512_castps_pd(zmm),1));

__m256d low = _mm512_castpd512_pd256(zmm);
__m256d high = _mm512_extractf64x4_pd(zmm,1);

__m256i low = _mm512_castsi512_si256(zmm);
__m256i high = _mm512_extracti64x4_epi64(zmm,1);

要获得水平总和,请执行 sum = Horizo​​ntal_add(low + high)

static inline float horizontal_add (__m256 a) {
__m256 t1 = _mm256_hadd_ps(a,a);
__m256 t2 = _mm256_hadd_ps(t1,t1);
__m128 t3 = _mm256_extractf128_ps(t2,1);
__m128 t4 = _mm_add_ss(_mm256_castps256_ps128(t2),t3);
return _mm_cvtss_f32(t4);
}

static inline double horizontal_add (__m256d a) {
__m256d t1 = _mm256_hadd_pd(a,a);
__m128d t2 = _mm256_extractf128_pd(t1,1);
__m128d t3 = _mm_add_sd(_mm256_castpd256_pd128(t1),t2);
return _mm_cvtsd_f64(t3);
}

我从Agner Fog's Vector Class Library获得了所有这些信息和功能和 Intel Instrinsics Guide online .

关于simd - 使用 __m512 (AVX512) 进行水平添加,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26896432/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com