gpt4 book ai didi

sse - 在整数向量上使用 _mm_shuffle_ps 的含义

转载 作者:行者123 更新时间:2023-12-04 19:05:09 28 4
gpt4 key购买 nike

SSE 内在函数包括 _mm_shuffle_ps xmm1 xmm2 immx允许从 xmm1 中选取 2 个元素与来自 xmm2 的 2 个元素连接.然而,这是针对浮点数,(由 _ps 暗示,打包单个)。但是,如果您转换压缩整数 __m128i ,那么你也可以使用 _mm_shuffle_ps :

#include <iostream>
#include <immintrin.h>
#include <sstream>

using namespace std;

template <typename T>
std::string __m128i_toString(const __m128i var) {
std::stringstream sstr;
const T* values = (const T*) &var;
if (sizeof(T) == 1) {
for (unsigned int i = 0; i < sizeof(__m128i); i++) {
sstr << (int) values[i] << " ";
}
} else {
for (unsigned int i = 0; i < sizeof(__m128i) / sizeof(T); i++) {
sstr << values[i] << " ";
}
}
return sstr.str();
}



int main(){

cout << "Starting SSE test" << endl;
cout << "integer shuffle" << endl;

int A[] = {1, -2147483648, 3, 5};
int B[] = {4, 6, 7, 8};

__m128i pC;

__m128i* pA = (__m128i*) A;
__m128i* pB = (__m128i*) B;

*pA = (__m128i)_mm_shuffle_ps((__m128)*pA, (__m128)*pB, _MM_SHUFFLE(3, 2, 1 ,0));
pC = _mm_add_epi32(*pA,*pB);

cout << "A[0] = " << A[0] << endl;
cout << "A[1] = " << A[1] << endl;
cout << "A[2] = " << A[2] << endl;
cout << "A[3] = " << A[3] << endl;

cout << "B[0] = " << B[0] << endl;
cout << "B[1] = " << B[1] << endl;
cout << "B[2] = " << B[2] << endl;
cout << "B[3] = " << B[3] << endl;

cout << "pA = " << __m128i_toString<int>(*pA) << endl;
cout << "pC = " << __m128i_toString<int>(pC) << endl;
}

相关相应程序集的片段( Ivy 桥 CPU 上的 mac osx、macports gcc 4.8、-march=native):
vshufps $228, 16(%rsp), %xmm1, %xmm0
vpaddd 16(%rsp), %xmm0, %xmm2
vmovdqa %xmm0, 32(%rsp)
vmovaps %xmm0, (%rsp)
vmovdqa %xmm2, 16(%rsp)
call __ZStlsISt11char_traitsIcEERSt13basic_ostreamIcT_ES5_PKc
....

因此,它似乎在整数上运行良好,这是我预期的,因为寄存器与类型无关,但是文档说该指令仅适用于浮点数肯定是有原因的。有人知道我遗漏的任何缺点或影响吗?

最佳答案

没有等效于 _mm_shuffle_ps对于整数。在这种情况下,要达到相同的效果,您可以执行以下操作

上证二

*pA = _mm_shuffle_epi32(_mm_unpacklo_epi32(*pA, _mm_shuffle_epi32(*pB, 0xe)),0xd8);

SSE4.1
*pA = _mm_blend_epi16(*pA, *pB, 0xf0);

change to the floating point domain像这样
*pA = _mm_castps_si128( 
_mm_shuffle_ps(_mm_castsi128_ps(*pA),
_mm_castsi128_ps(*pB), _MM_SHUFFLE(3, 2, 1 ,0)));

But changing domains may incur bypass latency delays在某些 CPU 上。请记住,根据 Agner

The bypass delay is important in long dependency chains where latency is a bottleneck, but not where it is throughput rather than latency that matters.



你必须测试你的代码,看看上面哪种方法更有效。

幸运的是,在大多数 Intel/AMD CPU 上,使用 shufps 通常不会受到惩罚。在大多数整数向量指令之间。阿格纳 说:

For example, I found no delay when mixing PADDD and SHUFPS [on Sandybridge].



Nehalem 确实有 2 个旁路延迟延迟到/从 SHUFPS ,但即便如此,只有一个 SHUFPS通常仍然比多个其他指令更快。额外的指令也有延迟,并且会降低吞吐量。

相反(FP 数学指令之间的整数洗牌)并不安全:

Agner Fog's microarchitecture 在例 8.3a 的第 112 页上,他展示了使用 PSHUFD ( _mm_shuffle_epi32 ) 而不是 SHUFPS ( _mm_shuffle_ps ) 在浮点域中会导致四个时钟周期的旁路延迟。在示例 8.3b 中,他使用 SHUFPS 来消除延迟(在他的示例中有效)。

在 Nehalem 上实际上有五个域。 Nahalem 似乎受影响最大(Nahalem 之前不存在旁路延迟)。在 Sandy Bridge 上,延迟不太明显。这在 Haswell 上更是如此。事实上,Haswell Agner 说他发现 SHUFPS 之间没有延迟。或 PSHUFD (参见第 140 页)。

关于sse - 在整数向量上使用 _mm_shuffle_ps 的含义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26983569/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com