- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
高级编程语言通常提供确定浮点值的绝对值的功能。例如,在C标准库中,有fabs(double)
函数。
实际上如何为x86目标实现该库函数?当我这样调用一个高级函数时,“幕后”实际上会发生什么?
这是一个昂贵的运算(乘法与平方根的组合)吗?还是仅通过删除内存中的负号就能找到结果?
最佳答案
通常,计算浮点数的绝对值是非常便宜且快速的操作。
在几乎所有情况下,您都可以将标准库中的fabs
函数简单地视为黑匣子,并在必要时将其散布在算法中,而无需担心它将如何影响执行速度。
如果您想了解为什么这样做这么便宜,那么您需要了解一些有关如何表示浮点值的知识。尽管C和C ++语言标准实际上并未强制要求它,但是大多数实现都遵循IEEE-754标准。在该标准中,每个浮点值的表示形式都包含一个称为符号位的标志,这标志着该值是正数还是负数。例如,考虑一个double
,它是64位的double-precision floating-point value:
(图片由Codekaizen提供,通过Wikipedia,由CC-bySA许可。)
您可以在最左侧看到淡蓝色的符号位。对于IEEE-754中所有浮点值的精度都是如此。因此,取绝对值基本上等于在内存中翻转该值表示形式中的一个字节。特别是,您只需要屏蔽符号位(按位与),将其强制为0,即无符号。
假设您的目标体系结构对浮点运算具有硬件支持,那么这通常是一条单一的单周期指令,基本上可以尽可能快地完成。优化的编译器将内联fabs
库函数的调用,并在该位置发出该单个硬件指令。
如果您的目标体系结构没有对浮点的硬件支持(在当今非常罕见),那么将有一个库可以在软件中模拟这些语义,从而提供浮点支持。通常,浮点仿真速度很慢,但是找到绝对值是您可以执行的最快的操作之一,因为从字面上看,它只是在进行一点操作。您将支付对fabs
的函数调用的开销,但最糟糕的是,该函数的实现将只涉及从内存中读取字节,屏蔽符号位并将结果存储回内存。
专门查看x86,它确实在硬件中实现了IEEE-754,C编译器将通过两种主要方式将对fabs
的调用转换为机器代码。
在32位版本中,the legacy x87 FPU用于浮点运算,它将发出fabs
instruction。 (是的,与C函数的名称相同。)这会将x87寄存器堆栈顶部的浮点值中的符号位(如果存在)剥离。在AMD处理器和Intel Pentium 4上,fabs
是1周期指令,具有2周期延迟。在AMD Ryzen和所有其他Intel处理器上,这是一条具有1个周期延迟的1周期指令。
在可以假定支持SSE的32位版本中,以及在所有64位版本(始终支持SSE)上,编译器都会发出ANDPS
instruction *,其功能完全符合我上面的描述:按位与浮点运算-点值带有恒定掩码,掩码了符号位。请注意,SSE2没有像x87那样专用于获取绝对值的指令,但是它甚至不需要一个指令,因为多用途按位运算指令可以很好地完成工作。从一个处理器的微体系结构到另一个处理器的微体系结构,执行时间(周期,等待时间等特性)的差异要大得多,但是它的吞吐量通常为1-3个周期,而等待时间却相似。如果愿意,可以在Agner Fog's instruction tables中查找感兴趣的处理器。
如果您真的有兴趣对此进行深入研究,您可能会看到this answer(Peter Cordes的技巧提示),它探讨了使用SSE指令实现绝对值函数的各种不同方法,比较了它们的性能并讨论了如何可以让编译器生成适当的代码。如您所见,由于您只是在操作位,因此有多种可能的解决方案!但是实际上,当前的编译器完全按照我对C库函数fabs
的描述进行操作,这很有意义,因为这是最佳的通用解决方案。
__
*从技术上讲,这也可能是ANDPD
,其中D
表示“ double”(而S
表示“ single”),但是ANDPD
需要SSE2支持。 SSE支持单精度浮点运算,并且一直可以追溯到Pentium III。 SSE2是双精度浮点运算所必需的,并且随Pentium 4一起引入。SSE2始终在x86-64 CPU上受支持。是否使用ANDPS
或ANDPD
是由编译器的优化程序决定的;有时您会看到ANDPS
用在双精度浮点值上,因为它只需要以正确的方式编写掩码即可。
另外,在支持AVX指令的CPU上,通常会在ANDPS
/ ANDPD
指令上看到VEX前缀,因此它成为VANDPS
/ VANDPD
。有关其工作方式及其目的的详细信息,请参见在线其他地方;可以说混合VEX和非VEX指令会导致性能下降,因此编译器会尽量避免使用它。同样,这两个版本都具有相同的效果和几乎相同的执行速度。
哦,因为SSE是SIMD指令集,所以可以一次计算多个浮点值的绝对值。您可能会想到,这特别有效。具有自动矢量化功能的编译器将在可能的情况下生成此类代码。示例(如此处所示,可以动态生成掩码,也可以将其作为常量加载):
cmpeqd xmm1, xmm1 ; generate the mask (all 1s) in a temporary register
psrld xmm1, 1 ; put 1s in but the left-most bit of each packed dword
andps xmm0, xmm1 ; mask off sign bit in each packed floating-point value
关于floating-point - fabs(double)如何在x86上实现?这是一项昂贵的手术吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44630015/
我知道问题的标题听起来很奇怪,但我不知道该怎么调用它。 首先,我有一个网格布局,我希望我的 .search-wrapper 宽度为 50% 并向右浮动。在我的演示中 jsfiddle整个 .searc
我们正在使用 QA-C 来实现 MISRA C++ 一致性,但是该工具会为这样的代码喷出错误: float a = foo(); float b = bar(); float c = a - b; 据
考虑 float a[] = { 0.1, 0.2, 0.3}; 我很困惑a稍后传递给函数 foo(float* A) .不应该是 float* 类型的变量指向单个浮点数,对吗?就像这里提到的tu
这可能是我一段时间以来收到的最好的错误消息,我很好奇出了什么问题。 原代码 float currElbowAngle = LeftArm ? Elbow.transform.localRotation
刚开始学习 F#,我正在尝试为 e 生成和评估泰勒级数的前 10 项。我最初编写了这段代码来计算它: let fact n = function | 0 -> 1 | _ -> [1
我已经使用 Erlang 读取二进制文件中的 4 个字节(小端)。 在尝试将二进制转换为浮点时,我一直遇到以下错误: ** exception error: bad argument in
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
我每次都想在浏览器顶部修复这个框。但是右边有一些问题我不知道如何解决所以我寻求帮助。 #StickyBar #RightSideOfStickyBar { float : right ; }
我正在研究 C# 编译器并试图理解数学运算规则。 我发现在两种不同的原始类型之间使用 == 运算符时会出现难以理解的行为。 int a = 1; float b = 1.0f; Cons
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
Denormals众所周知,与正常情况相比,表现严重不佳,大约是 100 倍。这经常导致 unexpected软件 problems . 我很好奇,从 CPU 架构的角度来看,为什么非规范化必须是 那
我有一个由两个 float 组成的区间,并且需要生成 20 个随机数,看起来介于两个 float 定义的区间之间。 比方说: float a = 12.49953f float b = 39.1123
我正在构建如下矩阵: QMatrix4x3 floatPos4x3 = QMatrix4x3( floatPos0.at(0), floatPos1.at(0), floatPos2.at(0),
给定归一化的浮点数f,在f之前/之后的下一个归一化浮点数是多少。 通过微动,提取尾数和指数,我得到了: next_normalized(double&){ if mantissa is n
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素? 为了帮助可视化我的问题,我创建了以下 jsFiddle http://
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素? 为了帮助可视化我的问题,我创建了以下 jsFiddle http://
我有一个新闻源/聊天框。每个条目包含两个跨度:#user 和#message。我希望#user 向左浮动,而#message 向左浮动。如果#message 导致行超过容器宽度,#message 应该
我想创建一个“记分卡”网格来输出一些数据。如果每个 div.item 中的数据都具有相同的高度,那么在每个 div.item 上留下一个简单的 float 会提供一个漂亮的均匀布局,它可以根据浏览器大
我正在学习使用 CSS float 属性。我想了解此属性的特定效果。 考虑以下简单的 HTML 元素: div1 div2 This is a paragraph 以及以下 CSS 规则: div {
我正在尝试从可以是 int 或 float 的文件中提取数据。我发现这个正则表达式将从文件 (\d+(\.\d+)?) 中提取这两种类型,但我遇到的问题是它将 float 拆分为两个。 >>> imp
我是一名优秀的程序员,十分优秀!