- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
多年来,我曾多次看到带有 float
参数的内部函数被转换为 __m128
,代码如下:__m128 b = _mm_move_ss (m, _mm_set_ss(a));
.
例如:
void MyFunction(float y)
{
__m128 a = _mm_move_ss(m, _mm_set_ss(y)); //m is __m128
//do whatever it is with 'a'
}
我想知道是否有类似的方法使用 _mm_move
和 _mm_set
内在函数对 double (__m128d
) 执行相同的操作?
最佳答案
几乎每个 _ss
和 _ps
内在/指令有一个double
带有 _sd
的版本或 _pd
后缀。 (标量 double 或压缩 double )。
例如搜索 (double
in Intel's intrinsic finder找到采用 double
的内部函数作为第一个参数。或者只是找出最佳的 asm 是什么,然后在 insn ref 手册中查找这些指令的内在函数。除了它 doesn't list all the intrinsics for movsd
, 因此在内部函数查找器中搜索指令名称通常是可行的。
re: header files: always just include <immintrin.h>
.它包括所有英特尔 SSE/AVX 内在函数。
另见 ways to put a float
into a vector , 和 sse标记 wiki 以获取有关如何打乱 vector 的链接。 (即 Agner Fog's optimizing assembly guide 中的洗牌指令表)
(请参阅下面的一些有趣的编译器输出的 godbolt 链接)
只使用_mm_move_ss
(或 sd)如果你真的想合并两个 vector 。
你没有展示如何m
被定义为。您对 a
的使用因为 float 和 vector 的变量名意味着 vector 中唯一有用的信息是 float
精氨酸。变量名冲突当然意味着它无法编译。
不幸的是,似乎没有任何方法可以“转换”一个 float
或 double
进入前 3 个元素中带有垃圾的 vector ,就像 __m128
一样-> __m256
:
__m256 _mm256_castps128_ps256 (__m128 a)
.我发布了一个关于内部函数限制的新问题:How to merge a scalar into a vector without the compiler wasting an instruction zeroing upper elements? Design limitation in Intel's intrinsics?
我尝试使用 _mm_undefined_ps()
为了实现这一点,希望这会在编译器中提示它可以将传入的高垃圾留在原地,在
// don't use this, it doesn't make better code
__m128d double_to_vec_highgarbage(double x) {
__m128d undef = _mm_undefined_pd();
__m128d x_zeroupper = _mm_set_sd(x);
return _mm_move_sd(undef, x_zeroupper);
}
但是clang3.8将它编译为
# clang3.8 -O3 -march=core2
movq xmm0, xmm0 # xmm0 = xmm0[0],zero
ret
所以没有优势,仍然将上半部分归零而不是将其编译为 ret
. gcc 实际上编写了非常糟糕的代码:
double_to_vec_highgarbage: # gcc5.3 -march=nehalem
movsd QWORD PTR [rsp-16], xmm0 # %sfp, x
movsd xmm1, QWORD PTR [rsp-16] # D.26885, %sfp
pxor xmm0, xmm0 # __Y
movsd xmm0, xmm1 # tmp93, D.26885
ret
_mm_set_sd
似乎是将标量转换为 vector 的最佳方式。
__m128d double_to_vec(double x) {
return _mm_set_sd(x);
}
clang 将其编译为 movq xmm0,xmm0
, gcc 存储/重新加载 -march=generic
.
其他有趣的编译器输出 from the float
and double
versions on the Godbolt compiler explorer
float_to_vec: # gcc 5.3 -O3 -march=core2
movd eax, xmm0 # x, x
movd xmm0, eax # D.26867, x
ret
float_to_vec: # gcc5.3 -O3 -march=nehalem
insertps xmm0, xmm0, 0xe # D.26867, x
ret
double_to_vec: # gcc5.3 -O3 -march=nehalem. It could still have use movq or insertps, instead of this longer-latency store-forwarding round trip
movsd QWORD PTR [rsp-16], xmm0 # %sfp, x
movsd xmm0, QWORD PTR [rsp-16] # D.26881, %sfp
ret
float_to_vec: # clang3.8 -O3 -march=core2 or generic (no -march)
xorps xmm1, xmm1
movss xmm1, xmm0 # xmm1 = xmm0[0],xmm1[1,2,3]
movaps xmm0, xmm1
ret
double_to_vec: # clang3.8 -O3 -march=core2, nehalem, or generic (no -march)
movq xmm0, xmm0 # xmm0 = xmm0[0],zero
ret
float_to_vec: # clang3.8 -O3 -march=nehalem
xorps xmm1, xmm1
blendps xmm0, xmm1, 14 # xmm0 = xmm0[0],xmm1[1,2,3]
ret
所以 clang 和 gcc 对 float
使用不同的策略与 double
,即使他们可以使用相同的策略。
使用像 movq
这样的整数运算浮点运算之间会导致额外的旁路延迟延迟。使用 insertps
将输入寄存器的上部元素归零应该是 float 或 double 的最佳策略,因此所有编译器应该在 SSE4.1 可用时使用它。 xorps + blend 也很好,并且可以在比 insertps 更多的端口上运行。存储/重新加载可能是最糟糕的,除非我们在 ALU 吞吐量上遇到瓶颈,并且延迟无关紧要。
关于c++ - 是否有适用于 double (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38963947/
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
我试图用这种形式简单地获取数字 28 integer+space+integer+integer+space+integer我试过这个正则表达式 \\s\\d\\d\\s 但我得到了两个数字11 和
最近一直在学习D语言。我一直对运行时感到困惑。 从我能收集到的关于它的信息中,(这不是很多)我知道它是一种有助于 D 的一些特性的运行时。像垃圾收集一样,它与您自己的程序一起运行。但是既然 D 是编译
想问一下这两个正则表达式有区别吗? \d\d\d 与 \d{3} 我已经在我的本地机器上使用 Java 和 Windows 操作系统对此进行了测试,两者都工作正常并且结果相同。但是,当在 linux
我正在学习 Go,而且我坚持使用 Go 之旅(exercise-stringer.go:https://tour.golang.org/methods/7)。 这是一些代码: type IPAddr
我在Java正则表达式中发现了一段令我困惑的代码: Pattern.compile( "J.*\\d[0-35-9]-\\d\\d-\\d\\d" ); 要编译的字符串是: String string
我在 ruby 代码上偶然发现了这个。我知道\d{4})\/(\d\d)\/(\d\d)\/(.*)/是什么意思,但是\1-\2-\3-\4 是什么意思? 最佳答案 \1-\2-\3-\4 是 b
我一直在努力解决这个问题,这让我很恼火。我了解 D 运行时库。它是什么,它做什么。我也明白你可以在没有它的情况下编译 D 应用程序。就像 XoMB 所做的那样。好吧,XoMB 定义了自己的运行时,但是
我有两个列表列表,子列表代表路径。我想找到所有路径。 List> pathList1 List> pathList2 当然是天真的解决方案: List> result = new ArrayList>
我需要使用 Regex 格式化一个字符串,该字符串包含数字、字母 a-z 和 A-Z,同时还包含破折号和空格。 从用户输入我有02-219 8 53 24 输出应该是022 198 53 24 我正在
目标是达到与this C++ example相同的效果: 避免创建临时文件。我曾尝试将 C++ 示例翻译为 D,但没有成功。我也尝试过不同的方法。 import std.datetime : benc
tl;dr:你好吗perfect forwarding在 D? 该链接有一个很好的解释,但例如,假设我有这个方法: void foo(T)(in int a, out int b, ref int c
有什么方法可以在 D 中使用abstract auto 函数吗? 如果我声明一个类如下: class MyClass { abstract auto foo(); } 我收到以下错误: mai
有没有人为内存中重叠的数组切片实现交集?算法在没有重叠时返回 []。 当 pretty-print (使用重叠缩进)内存中重叠的数组切片时,我想要这个。 最佳答案 如果您确定它们是数组,那么只需取 p
我已经开始学习 D,但我在使用 Andrei Alexandrescu 所著的 The D Programming Language 一书中提供的示例时遇到了一些麻烦。由于 int 和 ulong 类
如何创建一个不可变的类? 我的目标是创建一个实例始终不可变的类。现在我只是用不可变的方法和构造函数创建了一个“可变”类。我将其称为 mData,m 表示可变。然后我创建一个别名 alias immut
不久前我买了《The D Programming Language》。好书,很有教育意义。但是,我在尝试编译书中列出的语言功能时遇到了麻烦:扩展函数。 在这本书中,Andrei 写了任何可以像这样调用
我在 D http://www.digitalmars.com/d/2.0/lazy-evaluation.html 中找到了函数参数的惰性求值示例 我想知道如何在 D 中实现可能的无限数据结构,就像
这个问题在这里已经有了答案: 12 年前关闭。 Possible Duplicate: Could anyone explain these undefined behaviors (i = i++
当前是否可以跨模块扫描/查询/迭代具有某些属性的所有函数(或类)? 例如: source/packageA/something.d: @sillyWalk(10) void doSomething()
我是一名优秀的程序员,十分优秀!