gpt4 book ai didi

c++ - AVX 中的矩阵向​​量乘法并不按比例比 SSE 中快

转载 作者:可可西里 更新时间:2023-11-01 18:32:38 28 4
gpt4 key购买 nike

我正在使用以下代码在 SSE 和 AVX 中编写矩阵 vector 乘法:

for(size_t i=0;i<M;i++) {
size_t index = i*N;
__m128 a, x, r1;
__m128 sum = _mm_setzero_ps();
for(size_t j=0;j<N;j+=4,index+=4) {
a = _mm_load_ps(&A[index]);
x = _mm_load_ps(&X[j]);
r1 = _mm_mul_ps(a,x);
sum = _mm_add_ps(r1,sum);
}
sum = _mm_hadd_ps(sum,sum);
sum = _mm_hadd_ps(sum,sum);
_mm_store_ss(&C[i],sum);
}

我对 AVX 使用了类似的方法,但是最后,由于 AVX 没有与 _mm_store_ss() 等效的指令,我使用了:

_mm_store_ss(&C[i],_mm256_castps256_ps128(sum));

SSE 代码比串行代码提速 3.7。然而,AVX 代码只比串行代码快了 4.3。

我知道将 SSE 与 AVX 一起使用会导致问题,但我使用 g++ 使用 -mavx' 标志编译它,这应该会删除 SSE 操作码。

我也可以使用:_mm256_storeu_ps(&C[i],sum) 来做同样的事情,但加速是一样的。

关于我还可以做些什么来提高性能的任何见解?是否与:performance_memory_bound有关? ,尽管我没有清楚地理解该线程上的答案。

此外,即使包含“immintrin.h”头文件,我也无法使用 _mm_fmadd_ps() 指令。我同时启用了 FMA 和 AVX。

最佳答案

我建议您重新考虑您的算法。查看讨论 Efficient 4x4 matrix vector multiplication with SSE: horizontal add and dot product - what's the point?

您正在执行一个长点积并在每次迭代中使用 _mm_hadd_ps。相反,您应该使用 SSE 一次执行四个点积(使用 AVX 一次执行八个)并且只使用垂直运算符。

您需要加法、乘法和广播。这一切都可以在 SSE 中使用 _mm_add_ps_mm_mul_ps_mm_shuffle_ps(用于广播)完成。

如果您已经有了矩阵的转置,这就非常简单了。

但是无论你有没有转置,你都需要让你的代码对缓存更友好。为了解决这个问题,我建议对矩阵进行循环平铺。请参阅此讨论 What is the fastest way to transpose a matrix in C++?了解如何进行循环平铺。

在尝试 SSE/AVX 之前,我会先尝试让循环平铺正确。我在矩阵乘法中获得的最大提升不是来自 SIMD 或线程,而是来自循环平铺。我认为如果您正确使用缓存,您的 AVX 代码与 SSE 相比也会执行得更线性。

关于c++ - AVX 中的矩阵向​​量乘法并不按比例比 SSE 中快,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19806222/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com