gpt4 book ai didi

assembly - 将 xmm 寄存器的低两个 32 位 float 扩展到整个 xmm 寄存器

转载 作者:行者123 更新时间:2023-12-02 19:00:23 26 4
gpt4 key购买 nike

Intel x86 汇编中执行以下操作最有效的方法是什么(ab 是 32 位 float ):

xmm1: [-, -, a, b]xmm1: [a, a, b, b]

我找不到任何有用的说明。
我的想法是将ab复制到其他寄存器,然后将xmm1寄存器移动4个字节并移动ab 到最低 4 个字节。

最佳答案

您正在寻找 unpcklps xmm1, xmm1 ( https://www.felixcloutier.com/x86/unpcklps ) 将寄存器中的低位元素与自身交错:
低元素 -> 底部 2,第二低到高 2。

您可以改为使用 shufps 但在这种情况下也不会更好,并且需要一个立即字节。要复制和洗牌,您可以使用 pshufd,但在一些 CPU 上,整数指令在 FP 指令之间速度较慢(但它通常仍然比 movaps 更好) + unpcklps。要么没有旁路延迟,要么是 1 个周期,movaps 会花费相同的延迟,但也会消耗一些吞吐量资源。除了 Nehalem,旁路延迟将是 2 个周期。我认为没有任何带有 mov 的 CPU -消除对于随机播放有旁路延迟,但也许某些 AMD 会这样做。)


如果您无法找到正确的随机播放指令,请考虑用 C 语言编写它,并看看 clang 是否可以将其转换为适合您的随机播放指令。如_mm_set_ps(v[1], v[1], v[0], v[0])。一般来说,这并不总是能编译成好的 asm,但值得尝试使用 clang -O3(clang 有一个非常好的 shuffle 优化器)。在这种情况下,GCC 和 clang 都想出了如何通过一个 unpcklps xmm0,xm​​m0 ( https://godbolt.org/z/o6PTeP ) 来做到这一点,而不是可能发生的灾难。或者使用 shufps xmm0,xm​​m0, 5 相反(5 是 0b00'00'01'01)。

(请注意,将 __m128 索引为 v[idx] 是一个 GNU 扩展,但我只是建议使用 clang 来找到一个好的随机播放。如果如果您最终想要内在函数,请检查 clang 的 asm,然后在代码中使用该内在函数,而不是 _mm_set)

另请参阅 Agner Fog 优化指南中的 SIMD 章节 ( https://agner.org/optimize/ );他有一个很好的指令表来考虑不同类型的数据移动。另外https://www.officedaytime.com/simd512e/simd.html具有良好的视觉快速引用,并且 https://software.intel.com/sites/landingpage/IntrinsicsGuide/让您可以按类别(Swizzle = shuffles)和 ISA 级别进行过滤(这样您就可以排除 AVX512,它具有每个带有掩码的内在函数的无数版本。)

另请参阅https://stackoverflow.com/tags/sse/info了解这些链接及更多内容。


如果您不太了解可用指令(以及 CPU 架构/性能调整详细信息),您最好使用带有内在函数的 C。当您想出一种效率较低的洗牌方法时,编译器可以找到更好的方法。例如编译器有望为您将 _mm_shuffle_ps(v,v, _MM_SHUFFLE(1,1,0,0)) 优化为 unpcklps

很少有手写的 asm 是正确的选择,尤其是对于 x86。编译器通常能很好地处理内部函数,尤其是 GCC 和 clang。如果您不知道 unpcklps 的存在,那么您可能距离轻松/常规地击败编译器还有很长的路要走。

关于assembly - 将 xmm 寄存器的低两个 32 位 float 扩展到整个 xmm 寄存器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65641923/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com