floating-point - fabs(double)如何在x86上实现？这是一项昂贵的手术吗？-6ren

floating-point - fabs(double)如何在x86上实现？这是一项昂贵的手术吗？

转载作者：行者123 更新时间：2023-12-02 11:33:51

25

4

高级编程语言通常提供确定浮点值的绝对值的功能。例如，在C标准库中，有fabs(double)函数。

实际上如何为x86目标实现该库函数？当我这样调用一个高级函数时，“幕后”实际上会发生什么？

这是一个昂贵的运算（乘法与平方根的组合）吗？还是仅通过删除内存中的负号就能找到结果？

最佳答案

通常，计算浮点数的绝对值是非常便宜且快速的操作。

在几乎所有情况下，您都可以将标准库中的fabs函数简单地视为黑匣子，并在必要时将其散布在算法中，而无需担心它将如何影响执行速度。

如果您想了解为什么这样做这么便宜，那么您需要了解一些有关如何表示浮点值的知识。尽管C和C ++语言标准实际上并未强制要求它，但是大多数实现都遵循IEEE-754标准。在该标准中，每个浮点值的表示形式都包含一个称为符号位的标志，这标志着该值是正数还是负数。例如，考虑一个double，它是64位的double-precision floating-point value：

（图片由Codekaizen提供，通过Wikipedia，由CC-bySA许可。）

您可以在最左侧看到淡蓝色的符号位。对于IEEE-754中所有浮点值的精度都是如此。因此，取绝对值基本上等于在内存中翻转该值表示形式中的一个字节。特别是，您只需要屏蔽符号位（按位与），将其强制为0，即无符号。

假设您的目标体系结构对浮点运算具有硬件支持，那么这通常是一条单一的单周期指令，基本上可以尽可能快地完成。优化的编译器将内联fabs库函数的调用，并在该位置发出该单个硬件指令。

如果您的目标体系结构没有对浮点的硬件支持（在当今非常罕见），那么将有一个库可以在软件中模拟这些语义，从而提供浮点支持。通常，浮点仿真速度很慢，但是找到绝对值是您可以执行的最快的操作之一，因为从字面上看，它只是在进行一点操作。您将支付对fabs的函数调用的开销，但最糟糕的是，该函数的实现将只涉及从内存中读取字节，屏蔽符号位并将结果存储回内存。

专门查看x86，它确实在硬件中实现了IEEE-754，C编译器将通过两种主要方式将对fabs的调用转换为机器代码。

在32位版本中，the legacy x87 FPU用于浮点运算，它将发出fabs instruction。（是的，与C函数的名称相同。）这会将x87寄存器堆栈顶部的浮点值中的符号位（如果存在）剥离。在AMD处理器和Intel Pentium 4上，fabs是1周期指令，具有2周期延迟。在AMD Ryzen和所有其他Intel处理器上，这是一条具有1个周期延迟的1周期指令。

在可以假定支持SSE的32位版本中，以及在所有64位版本（始终支持SSE）上，编译器都会发出ANDPS instruction *，其功能完全符合我上面的描述：按位与浮点运算-点值带有恒定掩码，掩码了符号位。请注意，SSE2没有像x87那样专用于获取绝对值的指令，但是它甚至不需要一个指令，因为多用途按位运算指令可以很好地完成工作。从一个处理器的微体系结构到另一个处理器的微体系结构，执行时间（周期，等待时间等特性）的差异要大得多，但是它的吞吐量通常为1-3个周期，而等待时间却相似。如果愿意，可以在Agner Fog's instruction tables中查找感兴趣的处理器。

如果您真的有兴趣对此进行深入研究，您可能会看到this answer（Peter Cordes的技巧提示），它探讨了使用SSE指令实现绝对值函数的各种不同方法，比较了它们的性能并讨论了如何可以让编译器生成适当的代码。如您所见，由于您只是在操作位，因此有多种可能的解决方案！但是实际上，当前的编译器完全按照我对C库函数fabs的描述进行操作，这很有意义，因为这是最佳的通用解决方案。

__
*从技术上讲，这也可能是ANDPD，其中D表示“ double”（而S表示“ single”），但是ANDPD需要SSE2支持。 SSE支持单精度浮点运算，并且一直可以追溯到Pentium III。 SSE2是双精度浮点运算所必需的，并且随Pentium 4一起引入。SSE2始终在x86-64 CPU上受支持。是否使用ANDPS或ANDPD是由编译器的优化程序决定的；有时您会看到ANDPS用在双精度浮点值上，因为它只需要以正确的方式编写掩码即可。
另外，在支持AVX指令的CPU上，通常会在ANDPS / ANDPD指令上看到VEX前缀，因此它成为VANDPS / VANDPD。有关其工作方式及其目的的详细信息，请参见在线其他地方；可以说混合VEX和非VEX指令会导致性能下降，因此编译器会尽量避免使用它。同样，这两个版本都具有相同的效果和几乎相同的执行速度。

哦，因为SSE是SIMD指令集，所以可以一次计算多个浮点值的绝对值。您可能会想到，这特别有效。具有自动矢量化功能的编译器将在可能的情况下生成此类代码。示例（如此处所示，可以动态生成掩码，也可以将其作为常量加载）：

cmpeqd xmm1, xmm1     ; generate the mask (all 1s) in a temporary register
psrld  xmm1, 1        ; put 1s in but the left-most bit of each packed dword
andps  xmm0, xmm1     ; mask off sign bit in each packed floating-point value

关于floating-point - fabs(double)如何在x86上实现？这是一项昂贵的手术吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44630015/

25

4

0

文章推荐： python - 传递多个参数返回 'Response' (python)

文章推荐： lambda - 按 Java 8 分组

文章推荐： R v3.4.0-2 在 Arch 上无法找到 libgfortran.so.3

文章推荐： extjs - Ext-JS 4 与 CakePHP 对比 Ext.direct

css - float float float float ？
我知道问题的标题听起来很奇怪，但我不知道该怎么调用它。首先，我有一个网格布局，我希望我的 .search-wrapper 宽度为 50% 并向右浮动。在我的演示中 jsfiddle整个 .searc
c++ - "float = float - float"中是否存在隐式类型提升？
我们正在使用 QA-C 来实现 MISRA C++ 一致性，但是该工具会为这样的代码喷出错误: float a = foo(); float b = bar(); float c = a - b; 据
c - float* 类型的变量应该指向单个 float 还是一系列 float ？
考虑 float a[] = { 0.1, 0.2, 0.3}; 我很困惑a稍后传递给函数 foo(float* A) .不应该是 float* 类型的变量指向单个浮点数，对吗？就像这里提到的tu
c# - 存在从 'float' 和 'float' 以及从 'float' 到 'float' 的隐式转换
这可能是我一段时间以来收到的最好的错误消息，我很好奇出了什么问题。原代码 float currElbowAngle = LeftArm ? Elbow.transform.localRotation
types - 类型 'float -> float' 与类型 'float' 不匹配
刚开始学习 F#，我正在尝试为 e 生成和评估泰勒级数的前 10 项。我最初编写了这段代码来计算它: let fact n = function | 0 -> 1 | _ -> [1
floating-point - 如何从二进制文件中读取单精度 float 并转换为 Erlang float ？
我已经使用 Erlang 读取二进制文件中的 4 个字节(小端)。在尝试将二进制转换为浮点时，我一直遇到以下错误: ** exception error: bad argument in
c - 为什么将一个小 float 添加到一个大 float 中只会删除小 float ？
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
css - Float right 不会在框内 float ，而是在框外 float
我每次都想在浏览器顶部修复这个框。但是右边有一些问题我不知道如何解决所以我寻求帮助。 #StickyBar #RightSideOfStickyBar { float : right ; }
c# - 为什么 (int)==(float) 总是编译为 (float)==(float)
我正在研究 C# 编译器并试图理解数学运算规则。我发现在两种不同的原始类型之间使用 == 运算符时会出现难以理解的行为。 int a = 1; float b = 1.0f; Cons
c - 为什么将小 float 添加到大 float 只会降低小 float ？
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
floating-point - 从硬件架构的角度来看，为什么非规范化 float 比其他 float 慢得多？
Denormals众所周知，与正常情况相比，表现严重不佳，大约是 100 倍。这经常导致 unexpected软件 problems . 我很好奇，从 CPU 架构的角度来看，为什么非规范化必须是那
iphone - 在 float 和 float 之间获取随机 float 的最佳方法是什么？
我有一个由两个 float 组成的区间，并且需要生成 20 个随机数，看起来介于两个 float 定义的区间之间。比方说: float a = 12.49953f float b = 39.1123
c++ - 错误 : no matching function for call to ‘QGenericMatrix<4, 3, float>::QGenericMatrix(const float&, const float&, ..., float)’
我正在构建如下矩阵: QMatrix4x3 floatPos4x3 = QMatrix4x3( floatPos0.at(0), floatPos1.at(0), floatPos2.at(0),
floating-point - 标准化 float f之后(之前)的下一个标准化 float 是什么？
给定归一化的浮点数f，在f之前/之后的下一个归一化浮点数是多少。通过微动，提取尾数和指数，我得到了: next_normalized(double&){ if mantissa is n
CSS float : Why is float applied to the element just prior to the element to be floated?
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素？为了帮助可视化我的问题，我创建了以下 jsFiddle http://
CSS float : Why is float applied to the element just prior to the element to be floated?
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素？为了帮助可视化我的问题，我创建了以下 jsFiddle http://
css - 如何在 float 跨度内将 float 跨度包裹在另一个 float 跨度下方 [包括图表]？
我有一个新闻源/聊天框。每个条目包含两个跨度:#user 和#message。我希望#user 向左浮动，而#message 向左浮动。如果#message 导致行超过容器宽度，#message 应该
css-float - CSS float，清除一个 "row"的 float 元素
我想创建一个“记分卡”网格来输出一些数据。如果每个 div.item 中的数据都具有相同的高度，那么在每个 div.item 上留下一个简单的 float 会提供一个漂亮的均匀布局，它可以根据浏览器大
html - CSS float 属性 - float div 与 float 段落时的行为差异
我正在学习使用 CSS float 属性。我想了解此属性的特定效果。考虑以下简单的 HTML 元素: div1 div2 This is a paragraph 以及以下 CSS 规则: div {
用于 float 或整数的 Python 正则表达式，但不将 float 拆分为两个 float
我正在尝试从可以是 int 或 float 的文件中提取数据。我发现这个正则表达式将从文件 (\d+(\.\d+)?) 中提取这两种类型，但我遇到的问题是它将 float 拆分为两个。 >>> imp

首页

博学

6Ren·AI

商城

floating-point - fabs(double)如何在x86上实现？这是一项昂贵的手术吗？