c++ - 是否有一种无分支方法可以快速找到两个 double 浮点值的最小值/最大值？-6ren

c++ - 是否有一种无分支方法可以快速找到两个 double 浮点值的最小值/最大值？

转载作者：塔克拉玛干更新时间：2023-11-03 08:09:12

我有两个 double ，a和b，它们都在[0,1]中。由于性能原因，我希望a和b的最小值/最大值而不进行分支。

假设a和b均为正且小于1，是否有一种有效的方法来获取两者的最小值/最大值？理想情况下，我不希望分支。

最佳答案

是的，有一种方法可以计算两个double的最大值或最小值，而无需任何分支。这样做的C++代码如下所示:

#include <algorithm>

double FindMinimum(double a, double b)
{
    return std::min(a, b);
}

double FindMaximum(double a, double b)
{
    return std::max(a, b);
}

我敢打赌，您以前见过。唯恐您不相信这是无分支的 check out the disassembly:

FindMinimum(double, double):
    minsd   xmm1, xmm0
    movapd  xmm0, xmm1
    ret

FindMaximum(double, double):
    maxsd   xmm1, xmm0
    movapd  xmm0, xmm1
    ret

这就是从所有针对x86的流行编译器中获得的。使用SSE2指令集，特别是 minsd/ maxsd指令，该指令无分支地评估两个 double 浮点值的最小值/最大值。
所有64位x86处理器都支持 SSE2； AMD64扩展需要它。即使是大多数不带64位的x86处理器也支持SSE2。它于2000年发布。您必须走很长一段路才能找到不支持SSE2的处理器。但是，如果您呢？好吧，即使在那里 you get branchless code on most popular compilers:

FindMinimum(double, double):
    fld      QWORD PTR [esp + 12]
    fld      QWORD PTR [esp + 4]
    fucomi   st(1)
    fcmovnbe st(0), st(1)
    fstp     st(1)
    ret

FindMaximum(double, double):
    fld      QWORD PTR [esp + 4]
    fld      QWORD PTR [esp + 12]
    fucomi   st(1)
    fxch     st(1)
    fcmovnbe st(0), st(1)
    fstp     st(1)
    ret

fucomi指令执行比较，设置标志，然后 fcmovnbe指令根据这些标志的值执行条件移动。这一切都是完全无分支的，并依赖于1995年Pentium Pro引入x86 ISA的指令，该指令自Pentium II以来在所有x86芯片上均受支持。
此处唯一不会生成无分支代码的编译器是MSVC，因为 it doesn't take advantage of the FCMOVxx instruction。相反，您得到:

double FindMinimum(double, double) PROC
    fld     QWORD PTR [a]
    fld     QWORD PTR [b]
    fcom    st(1)            ; compare "b" to "a"
    fnstsw  ax               ; transfer FPU status word to AX register
    test    ah, 5            ; check C0 and C2 flags
    jp      Alt
    fstp    st(1)            ; return "b"
    ret
Alt:
    fstp    st(0)            ; return "a"
    ret
double FindMinimum(double, double) ENDP

double FindMaximum(double, double) PROC
    fld     QWORD PTR [b]
    fld     QWORD PTR [a]
    fcom    st(1)            ; compare "b" to "a"
    fnstsw  ax               ; transfer FPU status word to AX register
    test    ah, 5            ; check C0 and C2 flags
    jp      Alt
    fstp    st(0)            ; return "b"
    ret
Alt:
    fstp    st(1)            ; return "a"
    ret
double FindMaximum(double, double) ENDP

注意分支 JP指令(如果设置了奇偶校验位则跳转)。 FCOM指令用于进行比较，这是基本x87 FPU指令集的一部分。不幸的是，这会在FPU状态字中设置标志，因此为了分支这些标志，需要将其提取。这就是 FNSTSW指令的目的，该指令将x87 FPU状态字存储到通用的 AX寄存器中(它也可以存储到内存中，但是……为什么？)。然后，该代码 TEST为适当的位，并进行相应分支以确保返回正确的值。除了分支之外，检索FPU状态字也将相对较慢。这就是Pentium Pro引入 FCOM指令的原因。
但是，通过位旋转操作确定最小/最大，您不太可能提高任何代码的速度。有两个基本原因:

唯一生成低效率代码的编译器是MSVC，没有什么好的方法来强制它生成所需的指令。尽管MSVC支持内联汇编用于32位x86目标it is a fool's errand when seeking performance improvements。我还将引用自己:

Inline assembly disrupts the optimizer in rather significant ways, so unless you're writing significant swaths of code in inline assembly, there is unlikely to be a substantial net performance gain. Furthermore, Microsoft's inline assembly syntax is extremely limited. It trades flexibility for simplicity in a big way. In particular, there is no way to specify input values, so you're stuck loading the input from memory into a register, and the caller is forced to spill the input from a register to memory in preparation. This creates a phenomenon I like to call "a whole lotta shufflin' goin' on", or for short, "slow code". You don't drop to inline assembly in cases where slow code is acceptable. Thus, it is always preferable (at least on MSVC) to figure out how to write C/C++ source code that persuades the compiler to emit the object code you want. Even if you can only get close to the ideal output, that's still considerably better than the penalty you pay for using inline assembly.

为了访问浮点值的原始位，您必须进行域转换，从浮点到整数，然后再回到浮点。这很慢，尤其是在没有SSE2的情况下，因为从x87 FPU到ALU中的通用整数寄存器获取值的唯一方法是间接通过内存。

如果您仍然想采用这种策略(例如，对其进行基准测试)，则可以利用以下事实:浮点值按照其 IEEE 754表示法按字典顺序排序，除了符号位。因此，由于您假设两个值都是正值:

FindMinimumOfTwoPositiveDoubles(double a, double b):
    mov   rax, QWORD PTR [a]
    mov   rdx, QWORD PTR [b]
    sub   rax, rdx              ; subtract bitwise representation of the two values
    shr   rax, 63               ; isolate the sign bit to see if the result was negative
    ret

FindMaximumOfTwoPositiveDoubles(double a, double b):
    mov   rax, QWORD PTR [b]    ; \ reverse order of parameters
    mov   rdx, QWORD PTR [a]    ; /  for the SUB operation
    sub   rax, rdx
    shr   rax, 63
    ret

或者，为避免内联汇编:

bool FindMinimumOfTwoPositiveDoubles(double a, double b)
{
    static_assert(sizeof(a) == sizeof(uint64_t),
                  "A double must be the same size as a uint64_t for this bit manipulation to work.");
    const uint64_t aBits = *(reinterpret_cast<uint64_t*>(&a));
    const uint64_t bBits = *(reinterpret_cast<uint64_t*>(&b));
    return ((aBits - bBits) >> ((sizeof(uint64_t) * CHAR_BIT) - 1));
}

bool FindMaximumOfTwoPositiveDoubles(double a, double b)
{
    static_assert(sizeof(a) == sizeof(uint64_t),
                  "A double must be the same size as a uint64_t for this bit manipulation to work.");
    const uint64_t aBits = *(reinterpret_cast<uint64_t*>(&a));
    const uint64_t bBits = *(reinterpret_cast<uint64_t*>(&b));
    return ((bBits - aBits) >> ((sizeof(uint64_t) * CHAR_BIT) - 1));
}

请注意，此实现存在一些严重警告。特别是，如果两个浮点值具有不同的符号，或者两个值都为负，则它将中断。如果两个值均为负，则可以修改代码以翻转其符号，进行比较，然后返回相反的值。要处理两个值具有不同符号的情况，可以添加代码以检查符号位。

    // ...

    // Enforce two's-complement lexicographic ordering.
    if (aBits < 0)
    {
        aBits = ((1 << ((sizeof(uint64_t) * CHAR_BIT) - 1)) - aBits);
    }
    if (bBits < 0)
    {
        bBits = ((1 << ((sizeof(uint64_t) * CHAR_BIT) - 1)) - bBits);
    }

    // ...

处理负零也将是一个问题。 IEEE 754表示+0.0等于-0.0，因此您的比较函数必须决定是否要将这些值视为不同，或者向比较例程添加特殊代码以确保将负零和正零视为等效。
添加所有这些特殊情况的代码肯定会降低性能，以至于我们无法通过简单的浮点比较来达到收支平衡，并且很可能最终会变得更慢。

关于c++ - 是否有一种无分支方法可以快速找到两个 double 浮点值的最小值/最大值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55109204/

文章推荐： c++ - 指向 unique_ptr 的指针——这是一个漏洞吗？

文章推荐： c++ - 我可以使用名称而不是类型来声明对象文字吗？

文章推荐： c++ - 了解带移位的右移运算符

快速/更改循环中变量的名称
如何更改循环中变量的名称？比如 number1 、 number2 、 number3 、 number4 ？ var array = [2,4,6,8] func ap ( number1: Int
iOS延迟更改背景颜色(快速)
我想设置 View 的背景颜色并在一定延迟后将其更改为另一种颜色。这是我的尝试方式: print("setting color 1") self.view.backgroundColor = UICo
快速 session 在请求之间不持久
我在使用 express-session 时遇到问题。 session 数据不会在请求之间持续存在。正如您在下面的代码中看到的那样，/join 路由设置了一些 session 属性，但是当 /sur
快速 Steam 叶环
我试图从叶渲染器获得一个非常简单的结果，用于快速 Steam 的 for 循环。我正在上传叶文件 HTML，因为它不接受此处格式正确的代码 - 下面的pizza.swift代码- import
performance - 快速、简单的程序员编辑器
你们中有人有什么好的链接可以与我分享吗？我正在寻找一个 FAST 程序员编辑器，它可以非常快速地打开包含超过 100, 000 行代码的文件？我目前正在使用记事本自动取款机，打开一个 29000 行长
r - 快速、高效地循环数百万行并匹配列
我现在正在处理眼动追踪数据，因此拥有一个巨大的数据集(想想数百万行)，因此希望有一种快速的方法来完成此任务。这是它的简化版本。数据告诉您眼睛在每个时间点正在查看的位置以及我们正在查看的每个文件。 X
ios - 选择提示音-快速
我是新手，想为计时器或其他设备选择提示音。如何打开此列表，以选择其中一种声音？ Alert sound list 最佳答案您将无法在应用中使用系统声音。但是，您可以包括自己的声音文件，并将其显示
arrays - 将顺序字符串构建到数组中(快速)
我编写了以下代码来构建具有顺序字符串的数组。它的工作方式与我预期的一样，但我希望它能更快地运行。有没有更有效的方法在PowerShell中产生我想要的结果？我是PowerShell的新手，非常感谢
r - 快速、简洁地生成唯一矩阵行的有序频率计数的方法
我有一个包含一些非唯一行的矩阵，例如: x 尝试 y <- rle(apply(x, 1, paste, collapse = " ")) # y$lengths is the vector con
ios - 键盘打开时移动菜单(快速)
我的函数“keyboardWillShown”有问题。所以我想要的是菜单打开时，菜单正好出现在键盘上方。它可以在Iphone 8 plus，8、7、6上完美运行。但是，当我在模拟器上运行Iphone
ios - 第二次API调用后应用崩溃(快速)
我正在尝试通过Swift 5中的HTTP get方法从API提取数据。它在启动时成功加载了数据，但是当我刷新页面时，它说“索引超出范围”，这是因为数据是不再会在我的日志中读取，因此索引中没有任何内容。
ios - 将时间戳转换为其他时区(快速)
我想做什么: 从我的数据库中获取时间戳并将其转换为用户的时区。我的代码: let tryItNow = "\(model.timestampName)" let format = D
ios - 查找字符串的宽度(快速)
给定字体名称和字体大小，如何查找字符串的宽度(CGFloat)？ (目标是将UIView的宽度设置为足以容纳字符串的宽度。) 我有两个字符串:一个重复“1”，重复36次，另一个重复“M”，重复36次。
ios - JSON解析(快速)
我正在尝试解析此JSON ["Items": ( { AccountBalance = 0; AlphabetType = 3; Description = "\U0631\U
ios - 根据自动布局更改UILabel中的字体大小(快速)
我在UINavigationBar内放置了一个UILabel。我想根据navigationBar的高度增加该标签的字体大小。当navigationBar很大时，我希望字体大小更大；当滚动并缩小nav
ios - 消除数字中的多个小数点(快速)
我想将用户输入限制为仅有效数字并使用以下内容: func textView(_ textView: UITextView, shouldChangeTextIn range: NSRange, rep
C# - 图像比较(快速)
目前我有一个包含超过 100.000 张图像的数据库，它们大小不一或类似，但我想为我的公司制作以下内容: 我插入/上传一张图片，系统返回最有可能相同的图片。我不知道使用什么算法，但它需要快速。我可以预
ios - 按下按钮时发生的操作 - 快速
在我的 swift 项目中，我有一个按钮，我想在标签上打印按下该按钮的时间。如何解决这个问题？最佳答案添加到DHEERAJ的答案中，您只需在func press(sender: UIButton
arrays - 我想从解析加载数组数据(快速)
我必须发表评论，尝试在解析中导入数组。然而，有一个问题。当我尝试从 Parse 加载数组时，我的输出是 ("Blah","Blah","Blah")这是一个元组...而不是一个数组 TT... 如何
swift - 简化嵌套 if 快速
我的应用程序有一个名为 MyDevice 的类，我用它来与硬件通信。该硬件是可选的，实例变量也是可选的: var theDevice:MyDevice = nil 然后，在应用程序中，我必须初始化设备

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 是否有一种无分支方法可以快速找到两个 double 浮点值的最小值/最大值？