c++ - ARM64 上浮点精度的奇怪问题-6ren

c++ - ARM64 上浮点精度的奇怪问题

转载作者：行者123 更新时间：2023-11-30 01:03:59

27

4

我在 ARM64 上遇到了一个非常奇怪的浮点精度问题。我有一段非常简单的 C++ 代码，看起来像这样:

float sx = some_float_number_1;
float sy = some_float_number_2;
float ex = some_float_number_3;
float ey = some_float_number_4;
float px = ex;
float py = ey;

float d1 = (ex - sx) * (py - sy);
float d2 = (px - sx) * (ey - sy);

float d = d1 - d2;
float t = (ex - sx) * (py - sy) - (px - sx) * (ey - sy);

//32-bit output: d == t == 0
//64-bit output: d == 0, t != 0

理论上，d 应该等于 t 且等于 0，这正是 32 位 ARM 上发生的情况。但由于某些奇怪的原因，t 的输出在 64 位 ARM 上不等于 0，而 d 仍然正确。我从来没有见过这样的错误，所以我不知道是什么导致了这种问题。

编辑:更多信息

如果你没有注意到，d 和 t 的输出应该都是 0，因为 (ex - sx) * (py - sy) 等于 (px - sx) * (ey - sy)
此问题仅在输入的小数部分不等于 0 时发生。
我使用的编译器是包含在 Android NDK r15c 包中的 Clang。

EDIT2:这是反汇编

4c: 52933348    mov w8, #0x999a                 // #39322
50: 72a82828    movk    w8, #0x4141, lsl #16
54: b90683e8    str w8, [sp,#1664]
58: 52933348    mov w8, #0x999a                 // #39322
5c: 72a82728    movk    w8, #0x4139, lsl #16
60: b9067fe8    str w8, [sp,#1660]
64: 52933348    mov w8, #0x999a                 // #39322
68: 72a838a8    movk    w8, #0x41c5, lsl #16
6c: b9067be8    str w8, [sp,#1656]
70: 529999a8    mov w8, #0xcccd                 // #52429
74: 72a855e8    movk    w8, #0x42af, lsl #16
78: b90677e8    str w8, [sp,#1652]
7c: bd467be0    ldr s0, [sp,#1656]
80: bd0673e0    str s0, [sp,#1648]
84: bd4677e0    ldr s0, [sp,#1652]
88: bd066fe0    str s0, [sp,#1644]
8c: bd467be0    ldr s0, [sp,#1656]
90: bd4683e1    ldr s1, [sp,#1664]
94: 1e213800    fsub    s0, s0, s1
98: bd466fe1    ldr s1, [sp,#1644]
9c: bd467fe2    ldr s2, [sp,#1660]
a0: 1e223821    fsub    s1, s1, s2
a4: 1e210800    fmul    s0, s0, s1
a8: bd066be0    str s0, [sp,#1640]
ac: bd4673e0    ldr s0, [sp,#1648]
b0: bd4683e1    ldr s1, [sp,#1664]
b4: 1e213800    fsub    s0, s0, s1
b8: bd4677e1    ldr s1, [sp,#1652]
bc: bd467fe2    ldr s2, [sp,#1660]
c0: 1e223821    fsub    s1, s1, s2
c4: 1e210800    fmul    s0, s0, s1
c8: bd0667e0    str s0, [sp,#1636]
cc: bd466be0    ldr s0, [sp,#1640]
d0: bd4667e1    ldr s1, [sp,#1636]
d4: 1e213800    fsub    s0, s0, s1
d8: bd0663e0    str s0, [sp,#1632]
dc: bd467be0    ldr s0, [sp,#1656]
e0: bd4683e1    ldr s1, [sp,#1664]
e4: 1e213800    fsub    s0, s0, s1
e8: bd466fe2    ldr s2, [sp,#1644]
ec: bd467fe3    ldr s3, [sp,#1660]
f0: 1e233842    fsub    s2, s2, s3
f4: bd4673e4    ldr s4, [sp,#1648]
f8: 1e243821    fsub    s1, s1, s4
fc: bd4677e4    ldr s4, [sp,#1652]
100:    1e233883    fsub    s3, s4, s3
104:    1e230821    fmul    s1, s1, s3
108:    1f020400    fmadd   s0, s0, s2, s1
10c:    bd065fe0    str s0, [sp,#1628]

最佳答案

C++ 标准允许实现以比标称类型更精确的方式计算浮点表达式。它要求实现在将值分配给对象时丢弃多余的精度。

因此，在分配给 d1 和 d2 时，多余的精度将被丢弃，并且不会对 d1 - d2 产生影响，但是，在(ex - sx) * (py - sy) - (px - sx) * (ey - sy)，超精度参与评估。请注意，C++ 不仅允许计算中的超精度，而且允许它用于表达式的某些部分而不是其他部分。

特别是，评估像 a*b - c*d 这样的表达式的常用方法是使用乘法指令计算 -c*d(不使用超额精度)，然后使用融合乘加指令计算 a*b - c*d，该指令有效地使用无限精度进行乘法运算。

您的编译器可能有一个开关来禁用此行为并始终使用标称精度。

关于c++ - ARM64 上浮点精度的奇怪问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51124436/

27

4

0

文章推荐： android - 当我向下滚动 ListView 时，FAM 不会消失(隐藏)

文章推荐： Java LibGDX 多点触控问题

文章推荐： android - 电话 session 应用程序

文章推荐： c++ - 什么是大括号或等于初始值设定项？

arm - ARM 系统模式与 arm 监控模式有何不同？
将 ARM 处理器模式与 x86 操作模式(ring0 到 ring 3)进行比较，用户模式看起来就像 ring3，用户空间程序在其中运行。但是，我无法将 ring0 与系统模式或主管模式联系起来。
arm - ARM 中临时寄存器的用例是什么？
为什么我们在 ARM 架构中有暂存寄存器？处理器如何使用它，我的意思是这个寄存器的用途是什么？最佳答案来自 Procedure Call Standard for the Arm Architec
arm - ARM 弱内存模型保证了哪些顺序
我了解弱内存模型和强内存模型的基本区别。但是没有确切的弱定义，它取决于体系结构(这里是 ARM)。我已经阅读了有关 ARM 信息中心的文档，但仍有很多内容不清楚。有人可以列出 - ARM 保证哪些内
arm - ARM 的代码分析器
我想在 arm 9 上分析我的代码，是否有任何分析器可以给我函数调用时间和每个函数占用的总周期？我更喜欢任何免费的分析器。我喜欢在 Linux 中使用 kcachegrind。最佳答案我不知道有什
arm - arm 处理器中的外部中止
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
arm - ARM 的启动过程是怎样的？
众所周知，对于X86架构:按下电源按钮后，机器开始执行0xFFFFFFF0处的代码，然后开始执行BIOS中的代码以进行硬件初始化。 BIOS 执行后，它使用引导加载程序将操作系统镜像加载到内存中。最后
arm - 为 Thumb OR Arm 编译的 ARM ELF 的脚本/工具谓词
我有 rootfs 和 klibc 文件系统。我正在创建 make 规则，而一些开发人员的编译器较旧，但没有联网。note1 我正在尝试验证所有文件都是使用 arm 仅当检测到某个版本的编译器时。我已
json - Azure ARM 模板 - 访问由一个 ARM 模板在另一个 ARM 模板中创建的资源 ID
在部署实际应用程序之前，我们使用 ARM 模板部署 Azure 资源，作为构建过程的一部分。到目前为止，我们所有的应用程序资源都自包含在资源组中。例如需要 SQL Server 和存储帐户的 Web
arm - ARM/THUMB 状态切换
为什么 ARM Controller 在发生异常时要从 THUMB 状态返回到 ARM 状态？最佳答案一种解释可能是 ARM 模式是 CPU 的“ native ”操作模式，与有限的 Thumb
arm - ARM NEON 内在函数中的反向向量顺序
我正在尝试反转 128 位向量 (uint16x8) 的顺序。例如，如果我有 a b c d e f g h 我想获得 h g f e d c b a 有没有一种简单的方法可以使用 NEON 内在函
arm - 单核 ARM 上的内存屏障
有很多关于内存屏障的信息。大多数信息是指多核或多处理器架构。 Stackoverflow 上的某个地方还指出，单核处理器不需要内存屏障。到目前为止，我找不到任何明确的解释，为什么单核 CPU 上不需
arm - 优化不同阵列的 ARM 缓存使用
我想在 ARM Cortex A8 处理器上移植一小段代码。 L1 缓存和 L2 缓存都非常有限。我的程序中有 3 个数组。其中两个是顺序访问的(大小> 数组 A:6MB 和数组 B:3MB)，第三个
arm - 对 ARM 指令感到困惑
我无法弄清楚这个 ARM 指令是做什么的: strd.w r0, r1, [r2] 我知道这是一个存储指令，它在 *r2 中存储了一些东西。但我不完全确定是什么。为什么有两个源寄存器
arm - 为什么有些 ARM 指令不使用桶形移位器？
我很好奇为什么有些 ARM 指令(如 MUL 和 ADD)不使用桶形移位器。我想知道极限背后的理性。谢谢! 最佳答案并不是没有使用桶形移位器；这是您无法指定它在非常具体的指令(数据处理和加载/存储)
arm - 平均操作 ARM NEON
我需要计算与 SSE 相同的操作: __m128i result1=_mm_avg_epu8 (upper, lower); 使用 NEON，我执行以下操作: uint8x16_t result1=v
arm - PLD在 ARM 皮层a9中的使用
我正在尝试使用 PLD 指令。我面临的问题如下: int32_t addr[10]; asm ("PLD [addr,#5]"); 我收到以下错误: Error: ARM register expec
arm - 显式访问 ARM 上的存储寄存器
根据 ARM 手册，应该可以访问特定 CPU 模式的存储寄存器，例如“r13_svc”。当我尝试执行此操作时，gcc 对我大喊大叫，并显示以下错误: 立即表达式需要 # 前缀 -- `mov r2,s
arm - 什么时候使用 .ARM.exidx
我正在使用 mbxxx 目标开发 Contiki 2.7。在构建我的代码时，链接器提示 .ARM.exidx 和 .data 部分的重叠 .在修改了链接器脚本 contiki-2.7/cpu/stm3
arm - 如何检查 ARM 上是否存在NEON？
如何确定给定 ARM 处理器上是否存在 NEON 引擎？可以为此目的查询任何状态/标志寄存器吗？最佳答案我相信unixsmurf's answer如果使用具有特权内核的操作系统，这将与您获得的一样
arm - 如何在 ARM 平台上分析裸机源代码？
如何在设备上分析我的 ARM 代码。这是涉及 USB 和 SDH 处理的裸机代码，我看到了这个 Code Profiler for ARM但似乎很 slim ，我很熟悉DS5但如果您使用基于 lin

首页

博学

6Ren·AI

商城

c++ - ARM64 上浮点精度的奇怪问题