c++ - 是否有适用于 double (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set

c++ - 是否有适用于 double (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数？

转载作者：搜寻专家更新时间：2023-10-31 00:29:56

25

4

多年来，我曾多次看到带有 float 参数的内部函数被转换为 __m128，代码如下:__m128 b = _mm_move_ss (m, _mm_set_ss(a));.

例如:

void MyFunction(float y)
{
    __m128 a = _mm_move_ss(m, _mm_set_ss(y)); //m is __m128
    //do whatever it is with 'a'
}

我想知道是否有类似的方法使用 _mm_move 和 _mm_set 内在函数对 double (__m128d) 执行相同的操作？

最佳答案

几乎每个 _ss和 _ps内在/指令有一个double带有 _sd 的版本或 _pd后缀。 (标量 double 或压缩 double )。

例如搜索 (double in Intel's intrinsic finder找到采用 double 的内部函数作为第一个参数。或者只是找出最佳的 asm 是什么，然后在 insn ref 手册中查找这些指令的内在函数。除了它 doesn't list all the intrinsics for movsd , 因此在内部函数查找器中搜索指令名称通常是可行的。

re: header files: always just include <immintrin.h> .它包括所有英特尔 SSE/AVX 内在函数。

另见 ways to put a float into a vector , 和 sse标记 wiki 以获取有关如何打乱 vector 的链接。 (即 Agner Fog's optimizing assembly guide 中的洗牌指令表)

(请参阅下面的一些有趣的编译器输出的 godbolt 链接)

回复:你的序列

只使用_mm_move_ss (或 sd)如果你真的想合并两个 vector 。

你没有展示如何m被定义为。您对 a 的使用因为 float 和 vector 的变量名意味着 vector 中唯一有用的信息是 float精氨酸。变量名冲突当然意味着它无法编译。

不幸的是，似乎没有任何方法可以“转换”一个 float或 double进入前 3 个元素中带有垃圾的 vector ，就像 __m128 一样-> __m256 :
__m256 _mm256_castps128_ps256 (__m128 a) .我发布了一个关于内部函数限制的新问题:How to merge a scalar into a vector without the compiler wasting an instruction zeroing upper elements? Design limitation in Intel's intrinsics?

我尝试使用 _mm_undefined_ps()为了实现这一点，希望这会在编译器中提示它可以将传入的高垃圾留在原地，在

// don't use this, it doesn't make better code
__m128d double_to_vec_highgarbage(double x) {
  __m128d undef = _mm_undefined_pd();
  __m128d x_zeroupper = _mm_set_sd(x);
  return _mm_move_sd(undef, x_zeroupper);
}

但是clang3.8将它编译为

    # clang3.8 -O3 -march=core2
    movq    xmm0, xmm0              # xmm0 = xmm0[0],zero
    ret

所以没有优势，仍然将上半部分归零而不是将其编译为 ret . gcc 实际上编写了非常糟糕的代码:

double_to_vec_highgarbage:  # gcc5.3 -march=nehalem
    movsd   QWORD PTR [rsp-16], xmm0      # %sfp, x
    movsd   xmm1, QWORD PTR [rsp-16]      # D.26885, %sfp
    pxor    xmm0, xmm0      # __Y
    movsd   xmm0, xmm1    # tmp93, D.26885
    ret

_mm_set_sd似乎是将标量转换为 vector 的最佳方式。

__m128d double_to_vec(double x) {
  return _mm_set_sd(x);
}

clang 将其编译为 movq xmm0,xmm0 , gcc 存储/重新加载 -march=generic .

其他有趣的编译器输出 from the float and double versions on the Godbolt compiler explorer

float_to_vec:   # gcc 5.3 -O3 -march=core2
    movd    eax, xmm0       # x, x
    movd    xmm0, eax       # D.26867, x
    ret

float_to_vec:   # gcc5.3 -O3 -march=nehalem
    insertps        xmm0, xmm0, 0xe # D.26867, x
    ret

double_to_vec:    # gcc5.3 -O3 -march=nehalem.  It could still have use movq or insertps, instead of this longer-latency store-forwarding round trip
    movsd   QWORD PTR [rsp-16], xmm0      # %sfp, x
    movsd   xmm0, QWORD PTR [rsp-16]      # D.26881, %sfp
    ret

float_to_vec:   # clang3.8 -O3 -march=core2 or generic (no -march)
    xorps   xmm1, xmm1
    movss   xmm1, xmm0              # xmm1 = xmm0[0],xmm1[1,2,3]
    movaps  xmm0, xmm1
    ret

double_to_vec:  # clang3.8 -O3 -march=core2, nehalem, or generic (no -march)
    movq    xmm0, xmm0              # xmm0 = xmm0[0],zero
    ret


float_to_vec:    # clang3.8 -O3 -march=nehalem
    xorps   xmm1, xmm1
    blendps xmm0, xmm1, 14          # xmm0 = xmm0[0],xmm1[1,2,3]
    ret

所以 clang 和 gcc 对 float 使用不同的策略与 double ，即使他们可以使用相同的策略。

使用像 movq 这样的整数运算浮点运算之间会导致额外的旁路延迟延迟。使用 insertps将输入寄存器的上部元素归零应该是 float 或 double 的最佳策略，因此所有编译器应该在 SSE4.1 可用时使用它。 xorps + blend 也很好，并且可以在比 insertps 更多的端口上运行。存储/重新加载可能是最糟糕的，除非我们在 ALU 吞吐量上遇到瓶颈，并且延迟无关紧要。

关于c++ - 是否有适用于 double (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38963947/

25

4

0

文章推荐： c++ - 使无符号整数下溢抛出异常

文章推荐： c++ - 继承和少量参数

文章推荐： c++ - 将字符缓冲区转换为结构

检查用户输入的字符串在 C 中的格式为 "%d/%d/%d/%d/%d"
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
java - 使用此表单获取号码\d\s\d\d\s\d
我试图用这种形式简单地获取数字 28 integer+space+integer+integer+space+integer我试过这个正则表达式 \\s\\d\\d\\s 但我得到了两个数字11 和
d - D 语言是否完全依赖于 D 运行时？
最近一直在学习D语言。我一直对运行时感到困惑。从我能收集到的关于它的信息中，(这不是很多)我知道它是一种有助于 D 的一些特性的运行时。像垃圾收集一样，它与您自己的程序一起运行。但是既然 D 是编译
java - 这两种语法\\d\\d\\d 和\\d{3} 在所有环境中都一样吗？
想问一下这两个正则表达式有区别吗？ \d\d\d 与 \d{3} 我已经在我的本地机器上使用 Java 和 Windows 操作系统对此进行了测试，两者都工作正常并且结果相同。但是，当在 linux
go - 为什么我不能执行 fmt.Sprintf ("%d.%d.%d.%d"，一个...)？
我正在学习 Go，而且我坚持使用 Go 之旅(exercise-stringer.go:https://tour.golang.org/methods/7)。这是一些代码: type IPAddr
java - Java中的正则表达式: Pattern.编译( "J.*\\d[0-35-9]-\\d\\d-\\d\\d")
我在Java正则表达式中发现了一段令我困惑的代码: Pattern.compile( "J.*\\d[0-35-9]-\\d\\d-\\d\\d" ); 要编译的字符串是: String string
ruby - gsub(/(\d{4})\/(\d\d)\/(\d\d)\/(.*)/, '\1-\2-\3-\4' ) 是什么意思？
我在 ruby 代码上偶然发现了这个。我知道\d{4})\/(\d\d)\/(\d\d)\/(.*)/是什么意思，但是\1-\2-\3-\4 是什么意思？最佳答案 \1-\2-\3-\4 是 b
d - 如何在没有 D 运行时编译 D 应用程序？
我一直在努力解决这个问题，这让我很恼火。我了解 D 运行时库。它是什么，它做什么。我也明白你可以在没有它的情况下编译 D 应用程序。就像 XoMB 所做的那样。好吧，XoMB 定义了自己的运行时，但是
Java算法到 "multiply"两个列表列表((A),(B))*((C,C),(D,D))==((A,C,C),(A,D,D), (B,C,C),(B,D,D))
我有两个列表列表，子列表代表路径。我想找到所有路径。 List> pathList1 List> pathList2 当然是天真的解决方案: List> result = new ArrayList>
java - 如何清理和打印\d{3}\d{3}\d{2}\d{2}格式的数字
我需要使用 Regex 格式化一个字符串，该字符串包含数字、字母 a-z 和 A-Z，同时还包含破折号和空格。从用户输入我有02-219 8 53 24 输出应该是022 198 53 24 我正在
d - D 中的表达式模板
目标是达到与this C++ example相同的效果: 避免创建临时文件。我曾尝试将 C++ 示例翻译为 D，但没有成功。我也尝试过不同的方法。 import std.datetime : benc
d - D 中的完美转发？
tl;dr:你好吗perfect forwarding在 D？该链接有一个很好的解释，但例如，假设我有这个方法: void foo(T)(in int a, out int b, ref int c
d - D 中的抽象自动函数
有什么方法可以在 D 中使用abstract auto 函数吗？如果我声明一个类如下: class MyClass { abstract auto foo(); } 我收到以下错误: mai
d - D 中的切片交集
有没有人为内存中重叠的数组切片实现交集？算法在没有重叠时返回 []。当 pretty-print (使用重叠缩进)内存中重叠的数组切片时，我想要这个。最佳答案如果您确定它们是数组，那么只需取 p
d - D 中循环索引变量的默认类型是什么？
我已经开始学习 D，但我在使用 Andrei Alexandrescu 所著的 The D Programming Language 一书中提供的示例时遇到了一些麻烦。由于 int 和 ulong 类
d - D 中唯一的不可变类
如何创建一个不可变的类？我的目标是创建一个实例始终不可变的类。现在我只是用不可变的方法和构造函数创建了一个“可变”类。我将其称为 mData，m 表示可变。然后我创建一个别名 alias immut
d - D 中的扩展函数
不久前我买了《The D Programming Language》。好书，很有教育意义。但是，我在尝试编译书中列出的语言功能时遇到了麻烦:扩展函数。在这本书中，Andrei 写了任何可以像这样调用
d - D 中的无限数据结构
我在 D http://www.digitalmars.com/d/2.0/lazy-evaluation.html 中找到了函数参数的惰性求值示例我想知道如何在 D 中实现可能的无限数据结构，就像
c - printf ("%d %d %d\n",++a, a++,a) 输出
这个问题在这里已经有了答案: 12 年前关闭。 Possible Duplicate: Could anyone explain these undefined behaviors (i = i++
d - D:查找具有特定属性的所有功能
当前是否可以跨模块扫描/查询/迭代具有某些属性的所有函数（或类）？例如： source/packageA/something.d: @sillyWalk(10) void doSomething()

首页

博学

6Ren·AI

商城

c++ - 是否有适用于 double (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数？

回复:你的序列