gpt4 book ai didi

c++ - 为什么 `PSHUFD` 指令没有浮点内在?

转载 作者:搜寻专家 更新时间:2023-10-31 01:32:22 26 4
gpt4 key购买 nike

我面临的任务是打乱一个 _m128 vector 并将结果存储在另一个 vector 中。

在我看来,有两种基本方法可以打乱压缩浮点 _m128 vector :

  • _mm_shuffle_ps,它使用 SHUFPS 指令,如果您只想从一个 vector 中获取值,则该指令不一定是最佳选择:它从目标操作数中获取两个值,意味着额外的一步。
  • _mm_shuffle_epi32,它使用 PSHUFD 指令,该指令似乎完全符合此处的预期,并且可以比 SHUFPS 具有更好的延迟/吞吐量。

然而,后者内在函数适用于整数 vector (_m128i),并且似乎没有对应的 float ,因此将它与 _m128 一起使用需要进行一些丑陋的显式转换。此外,没有这样的对应物这一事实可能意味着存在一些我不知道的正当理由。

问题是为什么没有内在函数来打乱一个浮点 vector 并将结果存储在另一个 vector 中?
如果_mm_shuffle_ps(x,x, ...)可以生成PSHUFPD,是否可以保证?
如果 PSHUFD 不应该用于浮点值,那是什么原因?

谢谢!

最佳答案

内在函数应该与指令一对一映射。 _mm_shuffle_ps 生成 PSHUFD 是非常不可取的。它应该始终生成 SHUFPS。该文档并未表明存在其他情况。

当数据转换为单精度或 double float 时,某些处理器会出现性能下降。这是因为处理器使用包含数据的 FP 分类的内部寄存器来扩充 SSE 寄存器,例如零或 NaN 或无穷大或正常。切换类型时,您会在执行该步骤时遇到停顿。我不知道现代处理器是否仍然如此,但您可以查阅英特尔架构优化手册以获取该信息。

SHUFPS 在现代处理器上并不比 PSHUFD 慢很多。根据 Agner Fog 的指令表 (http://www.agner.org/optimize/instruction_tables.pdf),它们在 Haswell(第 4 代 Core i7)上具有相同的延迟和吞吐量。在 Nehalem(第一代 Core i7)上,它们具有相同的延迟,但 PSHUFD 的吞吐量为 2 个/周期,而 SHUFPS 的吞吐量为 1 个/周期。因此,即使您忽略了与切换类型相关的性能损失,也不能说一条指令在所有处理器中都比另一条指令更受青睐。

还有一种在 __m128、__m128d 和 __m128i 之间转换的方法: _mm_castXX_YY ( https://software.intel.com/en-us/node/695375?language=es ) 其中 XX 和 YY 分别是 ps、pd 或 si128。例如,_mm_castps_pd()。这确实是一个坏主意,因为 PSHUFD 运行速度更快的处理器会遭受与之后切换回 FP 相关的性能损失。换句话说,没有比执行 SHUFPS 更快的方法来执行 SHUFPS。

关于c++ - 为什么 `PSHUFD` 指令没有浮点内在?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43495363/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com