- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Intel x86 汇编中执行以下操作最有效的方法是什么(a、b 是 32 位 float ):
从 xmm1: [-, -, a, b]
到 xmm1: [a, a, b, b]
我找不到任何有用的说明。
我的想法是将a和b复制到其他寄存器,然后将xmm1
寄存器移动4个字节并移动a或 b 到最低 4 个字节。
最佳答案
您正在寻找 unpcklps xmm1, xmm1
( https://www.felixcloutier.com/x86/unpcklps ) 将寄存器中的低位元素与自身交错:
低元素 -> 底部 2,第二低到高 2。
您可以改为使用 shufps
但在这种情况下也不会更好,并且需要一个立即字节。要复制和洗牌,您可以使用 pshufd,但在一些 CPU 上,整数指令在 FP 指令之间速度较慢(但它通常仍然比 movaps 更好) + unpcklps
。要么没有旁路延迟,要么是 1 个周期,movaps 会花费相同的延迟,但也会消耗一些吞吐量资源。除了 Nehalem,旁路延迟将是 2 个周期。我认为没有任何带有 mov 的 CPU -消除对于随机播放有旁路延迟,但也许某些 AMD 会这样做。)
如果您无法找到正确的随机播放指令,请考虑用 C 语言编写它,并看看 clang 是否可以将其转换为适合您的随机播放指令。如_mm_set_ps(v[1], v[1], v[0], v[0])
。一般来说,这并不总是能编译成好的 asm,但值得尝试使用 clang -O3(clang 有一个非常好的 shuffle 优化器)。在这种情况下,GCC 和 clang 都想出了如何通过一个 unpcklps xmm0,xmm0
( https://godbolt.org/z/o6PTeP ) 来做到这一点,而不是可能发生的灾难。或者使用 shufps xmm0,xmm0, 5
相反(5 是 0b00'00'01'01
)。
(请注意,将 __m128
索引为 v[idx]
是一个 GNU 扩展,但我只是建议使用 clang 来找到一个好的随机播放。如果如果您最终想要内在函数,请检查 clang 的 asm,然后在代码中使用该内在函数,而不是 _mm_set
)
另请参阅 Agner Fog 优化指南中的 SIMD 章节 ( https://agner.org/optimize/ );他有一个很好的指令表来考虑不同类型的数据移动。另外https://www.officedaytime.com/simd512e/simd.html具有良好的视觉快速引用,并且 https://software.intel.com/sites/landingpage/IntrinsicsGuide/让您可以按类别(Swizzle = shuffles)和 ISA 级别进行过滤(这样您就可以排除 AVX512,它具有每个带有掩码的内在函数的无数版本。)
另请参阅https://stackoverflow.com/tags/sse/info了解这些链接及更多内容。
如果您不太了解可用指令(以及 CPU 架构/性能调整详细信息),您最好使用带有内在函数的 C。当您想出一种效率较低的洗牌方法时,编译器可以找到更好的方法。例如编译器有望为您将 _mm_shuffle_ps(v,v, _MM_SHUFFLE(1,1,0,0))
优化为 unpcklps
。
很少有手写的 asm 是正确的选择,尤其是对于 x86。编译器通常能很好地处理内部函数,尤其是 GCC 和 clang。如果您不知道 unpcklps
的存在,那么您可能距离轻松/常规地击败编译器还有很长的路要走。
关于assembly - 将 xmm 寄存器的低两个 32 位 float 扩展到整个 xmm 寄存器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65641923/
我知道问题的标题听起来很奇怪,但我不知道该怎么调用它。 首先,我有一个网格布局,我希望我的 .search-wrapper 宽度为 50% 并向右浮动。在我的演示中 jsfiddle整个 .searc
我们正在使用 QA-C 来实现 MISRA C++ 一致性,但是该工具会为这样的代码喷出错误: float a = foo(); float b = bar(); float c = a - b; 据
考虑 float a[] = { 0.1, 0.2, 0.3}; 我很困惑a稍后传递给函数 foo(float* A) .不应该是 float* 类型的变量指向单个浮点数,对吗?就像这里提到的tu
这可能是我一段时间以来收到的最好的错误消息,我很好奇出了什么问题。 原代码 float currElbowAngle = LeftArm ? Elbow.transform.localRotation
刚开始学习 F#,我正在尝试为 e 生成和评估泰勒级数的前 10 项。我最初编写了这段代码来计算它: let fact n = function | 0 -> 1 | _ -> [1
我已经使用 Erlang 读取二进制文件中的 4 个字节(小端)。 在尝试将二进制转换为浮点时,我一直遇到以下错误: ** exception error: bad argument in
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
我每次都想在浏览器顶部修复这个框。但是右边有一些问题我不知道如何解决所以我寻求帮助。 #StickyBar #RightSideOfStickyBar { float : right ; }
我正在研究 C# 编译器并试图理解数学运算规则。 我发现在两种不同的原始类型之间使用 == 运算符时会出现难以理解的行为。 int a = 1; float b = 1.0f; Cons
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
Denormals众所周知,与正常情况相比,表现严重不佳,大约是 100 倍。这经常导致 unexpected软件 problems . 我很好奇,从 CPU 架构的角度来看,为什么非规范化必须是 那
我有一个由两个 float 组成的区间,并且需要生成 20 个随机数,看起来介于两个 float 定义的区间之间。 比方说: float a = 12.49953f float b = 39.1123
我正在构建如下矩阵: QMatrix4x3 floatPos4x3 = QMatrix4x3( floatPos0.at(0), floatPos1.at(0), floatPos2.at(0),
给定归一化的浮点数f,在f之前/之后的下一个归一化浮点数是多少。 通过微动,提取尾数和指数,我得到了: next_normalized(double&){ if mantissa is n
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素? 为了帮助可视化我的问题,我创建了以下 jsFiddle http://
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素? 为了帮助可视化我的问题,我创建了以下 jsFiddle http://
我有一个新闻源/聊天框。每个条目包含两个跨度:#user 和#message。我希望#user 向左浮动,而#message 向左浮动。如果#message 导致行超过容器宽度,#message 应该
我想创建一个“记分卡”网格来输出一些数据。如果每个 div.item 中的数据都具有相同的高度,那么在每个 div.item 上留下一个简单的 float 会提供一个漂亮的均匀布局,它可以根据浏览器大
我正在学习使用 CSS float 属性。我想了解此属性的特定效果。 考虑以下简单的 HTML 元素: div1 div2 This is a paragraph 以及以下 CSS 规则: div {
我正在尝试从可以是 int 或 float 的文件中提取数据。我发现这个正则表达式将从文件 (\d+(\.\d+)?) 中提取这两种类型,但我遇到的问题是它将 float 拆分为两个。 >>> imp
我是一名优秀的程序员,十分优秀!