c - _mm_shuffle_ps() 等价于整数 vector (_

c - _mm_shuffle_ps() 等价于整数 vector (__m128i)？

转载作者：太空狗更新时间：2023-10-29 17:01:34

26

4

_mm_shuffle_ps() 内在函数允许将浮点输入交错为输出的低 2 float 和高 2 float 。

例如:

R = _mm_shuffle_ps(L1, H1, _MM_SHUFFLE(3,2,3,2))

将导致:

R[0] = L1[2];
R[1] = L1[3];
R[2] = H1[2];
R[3] = H1[3]

我想知道整数数据类型是否有类似的内在函数可用？需要两个 __m128i 变量和一个用于交错的掩码的东西？

_mm_shuffle_epi32() 内在函数只需要一个 128 位 vector 而不是两个。

最佳答案

不，没有与此等效的整数。所以你要么模仿它，要么作弊。

一种方法是在A 和B 上使用_mm_shuffle_epi32()。然后屏蔽掉所需的术语并将它们组合在一起。

这往往很困惑，大约有 5 条指令。 (如果您使用 SSE4.1 混合指令，则为 3。)

这是带有 3 条指令的 SSE4.1 解决方案:

__m128i A = _mm_set_epi32(13,12,11,10);
__m128i B = _mm_set_epi32(23,22,21,20);

A = _mm_shuffle_epi32(A,2*1 + 3*4 + 2*16 + 3*64);
B = _mm_shuffle_epi32(B,2*1 + 3*4 + 2*16 + 3*64);

__m128i C = _mm_blend_epi16(A,B,0xf0);

我更喜欢的方法是像这样作弊和浮点洗牌:

__m128i Ai,Bi,Ci;
__m128  Af,Bf,Cf;

Af = _mm_castsi128_ps(Ai);
Bf = _mm_castsi128_ps(Bi);
Cf = _mm_shuffle_ps(Af,Bf,_MM_SHUFFLE(3,2,3,2));
Ci = _mm_castps_si128(Cf);

它所做的是将数据类型转换为 float ，以便它可以使用 float 随机播放。然后将其转换回来。

请注意，这些“转换”是按位转换(也称为重新解释)。实际上没有完成任何转换，它们也没有映射到任何指令。在汇编中，整数或浮点 SSE 寄存器之间没有区别。这些强制转换内在函数只是为了绕过 C/C++ 强加的类型安全。

但是，请注意，此方法会导致在整数和浮点 SIMD 执行单元之间来回移动数据的额外延迟。所以它会比仅随机播放指令更昂贵。

关于c - _mm_shuffle_ps() 等价于整数 vector (__m128i)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13153584/

26

4

0

文章推荐：在 GCC 中动态创建 va_list - 可以做到吗？

文章推荐： python - 找一张图解释一下WSGI

文章推荐： angular - 为什么 Angular 在他们的教程中需要一个服务器？

文章推荐： python - Python 正则表达式中的正斜杠

Java:+=等价
是: x -= y; 相当于: x = x - y; 最佳答案不，它们并不等同于您表达它们的方式。 short x = 0, y = 0; x -= y; // This compiles f
JavaScript NaN 等价
这个问题在这里已经有了答案: What is the rationale for all comparisons returning false for IEEE754 NaN values? (1
python maketrans和translate的C#等价
我在哪里可以找到与 Python maketrans 和 translate 等效的 C# 代码？谢谢! 最佳答案这应该带你到那里的大部分方式: public class MakeTrans {
ios - SwiftUI adjustsFontSizeToFitWidth 等价
我正在 SwiftUI 中构建一个应用程序其中包含很多组件，包括 Text包含长字符串的 View 。当我在 iPhone 11 上启动该应用程序时，一切正常，但当我在较小的设备(例如 iPhone
java - 方法引用 ↔ lambda 等价
这个问题已经有答案了: What is the equivalent lambda expression for System.out::println (2 个回答) Function pointe
postgresql - postgres中excel的hour()函数(等价)
我最近在使用 postgres，我必须做一些计算。然而我一直没能模仿Excel的HOUR()函数，我看了official information但这对我帮助不大。函数接收一个小数，并得到小数的时、分
python - cython中 "enumerate"等价
如果在 cython 中定义了一个指针 vector ，那么与 python 中的 enumerate 类似的函数或过程是什么，用于遍历指针数组中元素的索引和值在 C 声明类型函数内的循环中？测试.
python - group-by + case when 等价
要选择: select user_id, max(case when value > 0 then timestamp else 0 end) as max_timestamp_whe
c++ - 函数参数中的 Typedef 等价
如果没有例子，这个问题很难问，所以这里是: #include struct O { }; struct C { template void function1(void (C::*call
c++ - 指向结构的指针的 Typedef 等价
我得到了这个结构的实现: struct NodoQ { Etype elem; NodoQ *sig; }; 下面是这段代码吗， typedef NodoQ *PtrNodoQ; PtrNod
c++ - 与静态方法中的 decltype(*this) 等价？
我有一些宏需要访问当前类的类型，目前我通过违反 DRY 的模式解决了这个问题: struct ThisScruct{ int a; double b; //example st
tensorflow - softmax_cross_entropy_with_logits 的 PyTorch 等价
我想知道 TensorFlow 的 softmax_cross_entropy_with_logits 是否有等效的 PyTorch 损失函数? 最佳答案 is there an equivalent
java-me - J2ME 中的 LinkedList 等价
我找到了一个 trie 的 java 实现，并希望在 J2ME 中有一个类似的实现。这是代码。节点类 import java.util.Collections; import java.util.L
javascript - GraphQL、Mysql 等价 OR 运算
我刚刚学习了 GraphQL，我想找到用户 id=2 OR 用户 id=3 现在我将如何进行 GraphQL 查询，我正在使用以下查询获取整个集合 { users() {
Docker-compose:标志 -p 等价
假设我有两个 Web 服务:A 和 B。两者都在 Apache 上运行。我希望它们可以从我的主机的不同端口访问:A 来自端口 88，B 来自端口 89。我可以手动完成(首先创建图像，然后使用“doc
mysql - Excel 数组公式与 MySQL 等价
我一直在 excel 中使用一个非常简单的数组公式来处理一些数据集，但是它们变得太大并且在我更新计算时完全破坏了我的计算机性能。 excel表格和MySQL数据库布局如下: +-Timestamp-+
Python __hash__ : identity vs. 等价
我有一个类，其实例要通过不同于它们携带的数据值的标识来区分。在我的代码中，我打算使用 == 来表示两个实例在它们的数据方面是等价的，并且 is 表示两个变量引用同一个实例，也就是说，他们是相同的。根据
c - I/O 完成端口中的 select() 等价
我正在 Windows 中使用 WinSock 2.0 开发代理服务器。如果我想在阻塞模型中开发它，select() 是等待客户端或远程服务器从中接收数据的方法。是否有任何适用的方法可以使用 I/O
objective-c - NSInvocationOperation 等价 yield
我正在将我制作的 Android 应用移植到 iOS。 Android 有一个 Yield() 函数可以将线程从运行中移到线程队列的后面(？)。这很有用，这样该线程就不会占用过多的 CPU 并使其他一
c++ - 和等价
这是否保证始终为真: std::numeric_limits::max() == INT_MAX C++ 标准对此有何规定？我在标准中找不到任何明确说明这一点的引用资料，但我一直在阅读这些内容应该是等

首页

博学

6Ren·AI

商城

c - _mm_shuffle_ps() 等价于整数 vector (__m128i)？