sse - 在整数向量上使用 _mm_shuffle

sse - 在整数向量上使用 _mm_shuffle_ps 的含义

转载作者：行者123 更新时间：2023-12-04 19:05:09

28

4

SSE 内在函数包括 _mm_shuffle_ps xmm1 xmm2 immx允许从 xmm1 中选取 2 个元素与来自 xmm2 的 2 个元素连接.然而，这是针对浮点数，(由 _ps 暗示，打包单个)。但是，如果您转换压缩整数 __m128i ，那么你也可以使用 _mm_shuffle_ps :

#include <iostream>
#include <immintrin.h>
#include <sstream>

using namespace std;

template <typename T>
std::string __m128i_toString(const __m128i var) {
    std::stringstream sstr;
    const T* values = (const T*) &var;
    if (sizeof(T) == 1) {
        for (unsigned int i = 0; i < sizeof(__m128i); i++) {
            sstr << (int) values[i] << " ";
        }
    } else {
        for (unsigned int i = 0; i < sizeof(__m128i) / sizeof(T); i++) {
            sstr << values[i] << " ";
        }
    }
    return sstr.str();
}



int main(){

  cout << "Starting SSE test" << endl;
  cout << "integer shuffle" << endl;

 int A[] = {1,  -2147483648, 3, 5};
 int B[] = {4, 6, 7, 8};

  __m128i pC;

  __m128i* pA = (__m128i*) A;
  __m128i* pB = (__m128i*) B;

  *pA = (__m128i)_mm_shuffle_ps((__m128)*pA, (__m128)*pB, _MM_SHUFFLE(3, 2, 1 ,0));
  pC = _mm_add_epi32(*pA,*pB);

  cout << "A[0] = " << A[0] << endl;
  cout << "A[1] = " << A[1] << endl;
  cout << "A[2] = " << A[2] << endl;
  cout << "A[3] = " << A[3] << endl;

  cout << "B[0] = " << B[0] << endl;
  cout << "B[1] = " << B[1] << endl;
  cout << "B[2] = " << B[2] << endl;
  cout << "B[3] = " << B[3] << endl;

  cout << "pA = " << __m128i_toString<int>(*pA) << endl;
  cout << "pC = " << __m128i_toString<int>(pC) << endl;
}

相关相应程序集的片段( Ivy 桥 CPU 上的 mac osx、macports gcc 4.8、-march=native):

vshufps $228, 16(%rsp), %xmm1, %xmm0
vpaddd  16(%rsp), %xmm0, %xmm2
vmovdqa %xmm0, 32(%rsp)
vmovaps %xmm0, (%rsp)
vmovdqa %xmm2, 16(%rsp)
call    __ZStlsISt11char_traitsIcEERSt13basic_ostreamIcT_ES5_PKc
....

因此，它似乎在整数上运行良好，这是我预期的，因为寄存器与类型无关，但是文档说该指令仅适用于浮点数肯定是有原因的。有人知道我遗漏的任何缺点或影响吗？

最佳答案

没有等效于 _mm_shuffle_ps对于整数。在这种情况下，要达到相同的效果，您可以执行以下操作

上证二

*pA = _mm_shuffle_epi32(_mm_unpacklo_epi32(*pA, _mm_shuffle_epi32(*pB, 0xe)),0xd8);

SSE4.1

*pA = _mm_blend_epi16(*pA, *pB, 0xf0);

或 change to the floating point domain像这样

*pA = _mm_castps_si128( 
        _mm_shuffle_ps(_mm_castsi128_ps(*pA), 
                       _mm_castsi128_ps(*pB), _MM_SHUFFLE(3, 2, 1 ,0)));

But changing domains may incur bypass latency delays在某些 CPU 上。请记住，根据 Agner

The bypass delay is important in long dependency chains where latency is a bottleneck, but not where it is throughput rather than latency that matters.

你必须测试你的代码，看看上面哪种方法更有效。

幸运的是，在大多数 Intel/AMD CPU 上，使用 shufps 通常不会受到惩罚。在大多数整数向量指令之间。阿格纳说:

For example, I found no delay when mixing PADDD and SHUFPS [on Sandybridge].

Nehalem 确实有 2 个旁路延迟延迟到/从 SHUFPS ，但即便如此，只有一个 SHUFPS通常仍然比多个其他指令更快。额外的指令也有延迟，并且会降低吞吐量。

相反(FP 数学指令之间的整数洗牌)并不安全:

在 Agner Fog's microarchitecture 在例 8.3a 的第 112 页上，他展示了使用 PSHUFD ( _mm_shuffle_epi32 ) 而不是 SHUFPS ( _mm_shuffle_ps ) 在浮点域中会导致四个时钟周期的旁路延迟。在示例 8.3b 中，他使用 SHUFPS 来消除延迟(在他的示例中有效)。

在 Nehalem 上实际上有五个域。 Nahalem 似乎受影响最大(Nahalem 之前不存在旁路延迟)。在 Sandy Bridge 上，延迟不太明显。这在 Haswell 上更是如此。事实上，Haswell Agner 说他发现 SHUFPS 之间没有延迟。或 PSHUFD (参见第 140 页)。

关于sse - 在整数向量上使用 _mm_shuffle_ps 的含义，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26983569/

28

4

0

文章推荐： maven - Maven 执法者是否忽略依赖管理部分？

文章推荐： r - 使用端点函数来获取起点？

文章推荐： wcf - 如何捕获 WCF 服务端点

JAVA_HOME 含义
这个问题在这里已经有了答案: Towards the "true" definition of JAVA_HOME (5 个答案) 关闭 4 年前。为什么 ActiveMQ 提供者需要设置 JAV
[]的C++含义
这个问题在这里已经有了答案: What is a lambda expression in C++11? (10 个答案) 关闭 8 年前。这是来自 boosts asio 的一个例子。这是什么意
CSS "::"含义
这个问题在这里已经有了答案: What does the double colon (::) mean in CSS? (3 个答案) 关闭 7 年前。我经常看到这种用法。特别是伪类。“::”在
iPhone SDK << 含义？
嗨，另一个愚蠢的简单问题。我注意到在Apple框架中的某些typedef中使用符号"<<"谁能告诉我这是什么意思？: enum { UIViewAutoresizingNone
javascript - someObject.$() 含义
someObject.$() 是什么意思？我正在浏览 sapui5 工具包中的 tilecontainer-dbg 文件，发现了这个: var oDomRef = this.$(); or some
javascript - 函数参数包含 "[,"含义
这个问题已经有答案了: How to interpret function parameters in software and language documentation? (4 个回答) 已关闭
javascript 箭头函数 ()=>() 含义？
我遇到过这个语法。任何人都可以解释一下 getArg1ListInfo:()=>(object.freeze(arg1)) 的含义 function foo (arg1,arg2) { let
c++ - 新运算符前的括号 - 含义？
对于子类，我有以下代码: class child1 : public parent { public: static parent* function1(void) { ret
C++ 含义 |= 和 &=
这个问题在这里已经有了答案: What does "|=" mean? (pipe equal operator) (6 个答案) 关闭 1 年前。我有一部分代码包含以下功能: void Keyb
C++ typedef 含义
以下在 C++ 中是什么意思？ typedef PComplex RComplex [100]; 请注意，PComplex 是我代码中的用户定义类型。谢谢最佳答案 RComplex 是 PComp
# 符号的 LISP 含义
在我的 Lisp 代码中，我有函数 (nfa-regex-compile)，它创建一个包含初始状态、转换和最终状态的 cons 列表(表示自动机的节点)从作为参数给出的正则表达式开始。在这种情况下，
python - 序列化包含函数的对象 - 含义
以下文字摘自 Learning Spark 第 3 章 One issue to watch out for when passing functions is inadvertently seria
PHP Docblock #@+ 含义
PHP 文档 block 中以下内容的含义是什么: #@+ zend框架代码中的一个例子: /**#@+ * @const string Version constant numbers */ c
Python 运算符 |= 含义
由于 python 的一些版本控制问题，我必须使用自定义函数来比较 HMAC (SHA512)。为此，我找到了这个函数: def compare_digest(x, y): if not (i
c++ - 初始化表达式中使用的声明变量 - 含义？
取自this answer here : static const qi::rule node = '{' >> *node >> '}' | +~qi::char_("{}"); 请注意，声明了名称
Golang struct {}{} 含义
我正在查看 chi 包的文档。我看到类似的东西: https://github.com/pressly/chi/blob/master/_examples/rest/main.go#L154 data
MySQL INT 含义
我想知道如果我采用值为 8 的 INT，这是否意味着我只能从 1 到 99999999 或从 1 到 4294967295 UNSIGNED？最佳答案文档似乎很清楚这一点: Numeric Typ
MySQL INT 含义
我想知道如果我采用值为 8 的 INT，这是否意味着我只能从 1 到 99999999 或从 1 到 4294967295 UNSIGNED？最佳答案文档似乎很清楚这一点: Numeric Typ
java -/*(非javadoc)含义
这个问题在这里已经有了答案: 关闭9年前。 Possible Duplicate: Does “/* (non-javadoc)” have a well-understood meaning? 以下
Prolog 和 headless 含义
在 Prolog 代码中，可以使用“ headless ”Horn 子句将指令传递给编译器，这些子句与指向左侧的物质蕴涵 ':-' (⇐) 的左侧没有头部关系。例如，导入模块或声明 Unit Test

首页

博学

6Ren·AI

商城

sse - 在整数向量上使用 _mm_shuffle_ps 的含义