floating-point - 为什么 float 不正确？-6ren

floating-point - 为什么 float 不正确？

转载作者：行者123 更新时间：2023-11-30 13:22:08

30

4

为什么有些数字存储为浮点数时会失去准确性？

例如，十进制数9.2可以精确地表示为两个十进制整数（92/10）的比率，两个整数都可以精确地以二进制（0b1011100/0b1010）表示。但是，存储为浮点数的相同比率永远不会完全等于9.2：

32-bit "single precision" float: 9.19999980926513671875
64-bit "double precision" float: 9.199999999999999289457264239899814128875732421875

这样一个看似简单的数字怎么会“太大”而无法在64位内存中表达呢？

最佳答案

在大多数编程语言中，浮点数非常类似于scientific notation表示：具有指数和尾数（也称为有效位数）。一个非常简单的数字，例如9.2，实际上就是这个分数：

5179139571476070 * 2 -49

指数为-49，尾数为5179139571476070。用这种方式无法表示一些十进制数字的原因是，指数和尾数都必须是整数。换句话说，所有浮点数必须是整数乘以2的整数次方。

9.2可能只是92/10，但是如果n限制为整数值，则10不能表示为2n。

看到数据

首先，使用一些函数来查看组成32位和64位float的组件。如果只关心输出（例如Python），则可以查看以下内容：

def float_to_bin_parts(number, bits=64):
    if bits == 32:          # single precision
        int_pack      = 'I'
        float_pack    = 'f'
        exponent_bits = 8
        mantissa_bits = 23
        exponent_bias = 127
    elif bits == 64:        # double precision. all python floats are this
        int_pack      = 'Q'
        float_pack    = 'd'
        exponent_bits = 11
        mantissa_bits = 52
        exponent_bias = 1023
    else:
        raise ValueError, 'bits argument must be 32 or 64'
    bin_iter = iter(bin(struct.unpack(int_pack, struct.pack(float_pack, number))[0])[2:].rjust(bits, '0'))
    return [''.join(islice(bin_iter, x)) for x in (1, exponent_bits, mantissa_bits)]

该函数背后有很多复杂性，并且很容易解释，但是如果您感兴趣的话， struct模块对我们而言是重要的资源。

Python的 float是64位双精度数字。在其他语言（例如C，C ++，Java和C＃）中，双精度具有单独的类型 double，通常将其实现为64位。

当我们使用示例 9.2调用该函数时，得到的是：

>>> float_to_bin_parts(9.2)
['0', '10000000010', '0010011001100110011001100110011001100110011001100110']

解释数据

您会看到我将返回值分为三个部分。这些组件是：

标志
指数
尾数（也称为有效数或分数）

标志

该符号作为单个位存储在第一部分中。很容易解释： 0表示浮点数为正数； 1表示否定。因为 9.2为正，所以我们的符号值为 0。

指数

指数以11位存储在中间组件中。在我们的例子中， 0b10000000010。以十进制表示，代表值 1026。该组件的一个怪癖是您必须减去一个等于2（位数）的数字1-1，以获得真实的指数。在我们的例子中，这意味着减去 0b1111111111（十进制数 1023）以获得真实指数 0b00000000011（十进制数3）。

尾数

尾数作为52位存储在第三部分中。但是，此组件也有一个怪癖。要理解这个怪异现象，请考虑科学计数形式的数字，如下所示：

  6.0221413x1023

尾数为 6.0221413。回想一下，科学计数法中的尾数始终以单个非零数字开头。二进制也是如此，只不过二进制只有两位数字： 0和 1。因此二进制尾数始终以 1开头！当存储浮点数时，将省略二进制尾数前面的 1以便节省空间。我们必须将其放回第三个元素的前面以获取真实的尾数：

  1.0010011001100110011001100110011001100110011001100110110

这涉及的不仅仅是一个简单的加法，因为存储在我们第三个分量中的位实际上代表了 radix point右边的尾数的小数部分。

在处理十进制数时，我们通过乘以10的乘方或除以“移动小数点”。在二进制中，我们可以通过乘以2的乘方或除以进行相同的操作。由于我们的第三个元素有52位，因此我们除以通过252将其向右移动52位：

  0.00100110011001100110011001100110011001100110011001100110

用十进制表示法，与将 675539944105574除以 4503599627370496以获得 0.1499999999999999相同。（这是一个比率的示例，该比率可以精确地用二进制表示，但只能近似用十进制表示；有关更多详细信息，请参见： 675539944105574 / 4503599627370496。）

现在我们已经将第三个分量转换为分数，添加 1给出了真实的尾数。

重新盖上组件

符号（第一部分）： 0表示正， 1表示负
指数（中间分量）：减去2（位数）-1-1得到真实的指数
尾数（最后一个分量）：除以2（位数）并加 1即可得到真实的尾数

计算数字

将所有三个部分放在一起，我们得到这个二进制数：

  1.0010011001100110011001100110011001100110011001100110 x 1011

然后我们可以将其从二进制转换为十进制：

  1.1499999999999999 x 23（不精确！）

并相乘以显示以浮点值存储后以（ 9.2）开头的数字的最终表示形式：

  9.1999999999999993

表示为分数

9.2

现在我们已经构建了数字，可以将其重构为一个简单的分数：

  1.0010011001100110011001100110011001100110011001100110 x 1011

将尾数转换为整数：

  10010011001100110011001100110011001100110011001100110 x 1011-110100

转换为十进制：

  5179139571476070 x 23-52

减去指数：

  5179139571476070 x 2-49

将负指数转化为除法：

  5179139571476070/249

相乘指数：

  5179139571476070/562949953421312

等于：

  9.1999999999999993

9.5

>>> float_to_bin_parts(9.5)
['0', '10000000010', '0011000000000000000000000000000000000000000000000000']

您已经可以看到尾数只有4位数字，后面跟着很多零。但是，让我们逐步进行。

汇编二进制科学符号：

  1.0011 x 1011

移动小数点：

  10011 x 1011-100

减去指数：

  10011 x 10-1

二进制到十进制：

  19 x 2-1

负数除法指数：

  19/21

相乘指数：

  19/2

等于：

  9.5

进一步阅读

The Floating-Point Guide: What Every Programmer Should Know About Floating-Point Arithmetic, or, Why don’t my numbers add up?（floating-point-gui.de）
What Every Computer Scientist Should Know About Floating-Point Arithmetic（Goldberg 1991）
IEEE Double-precision floating-point format（维基百科）
Floating Point Arithmetic: Issues and Limitations（docs.python.org）
Floating Point Binary

关于floating-point - 为什么 float 不正确？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37657631/

30

4

0

文章推荐： ios - 减少 dentry 仅显示十个结果

文章推荐： c# - 风格完全改变

文章推荐： javascript - IE 中的 CSS 3 文本阴影

gis - RTree : Count points in the neighbourhoods within each point of another set of points
为什么这不返回每个社区(边界框)中的点数？ import geopandas as gpd def radius(points_neighbour, points_center, new_field_
algorithm - 图像变换 : point to point
嘿! 我有一张图片，我想在该图片上选择一个点并告诉它应该变换到哪个坐标。我想为一些数字点做这个。当我完成时，整个图像会发生变化，因此会考虑局部性。最重要的是，我可以选择任意多的点，并且所选的点会转换
c++ - Point 的运算符 +(Vector) - 但 Vector 使用 Point 并且在 Point 声明中未声明
我有代码: class Point3D{ protected: float x; float y; float z; public:
spring - 为什么我无法将实体类的 Point 字段映射到数据库上的 Point 字段？列 "location"是 point 类型，但表达式是 bytea 类型
我正在开发我的第一个 Spring Boot + Spring Data JPA + Hibernate 5，在 PostgreSQL 上工作数据库。我在尝试映射具有 point 作为数据类型的字段
c# - Point point = null 作为类构造函数中的默认参数
当我尝试编译这个简单的代码时，我在构造函数中遇到了两个错误:“类型值不能用作默认参数”我该如何解决这个问题？ public class PointerArgs { public P
c# - Point point = null 作为类构造函数中的默认参数
当我尝试编译这个简单的代码时，我在构造函数中遇到了两个错误:“类型值不能用作默认参数”我该如何解决这个问题？ public class PointerArgs { public P
ruby - 如何实现这种情况(pointS - point B)？
目前我正在实现一项提供集体旅行的交通服务，但我遇到了一个问题: 假设我在下图中得到了点 G = {A,B,C,D,F,R,W} =>。当用户选择 from(A) -> to(W) 时，它们之间有点:
linq - POINT 内的 EntityFramework 和空间搜索 POINT
我有一个名为 Shop 的实体，它有一个名为 Position 的 DBGeorgpraphy 列数据库中的示例商店的位置值为 POINT (145.034242 -37.825519) 我正在尝试
c++ - 请求从 ‘Point*’ 到非标量类型 ‘Point’ 的转换
我看了几个类似的帖子，但我要么不明白他们提供的是什么，要么他们似乎不适用。我是新来的，我会尽力遵守规则。我们在类(class)的最后 2 周学习 c++，期末学习 40 小时 :)，所以我是初学者。
python - 属性错误: 'Point' object has no attribute 'point'
我正在使用 tf2 将点从源帧转换为目标帧。下面是代码片段: import tf2_ros import tf2_geometry_msgs transform = tf_buffer.lookup_
algorithm - 凸包 : known number of points but not points itself
我需要找到一种算法，根据给定的一组大小为 n 的点 S 计算凸包。我知道 S 正好有 6 个点构成了凸包。最好和最有效的方法是什么？我想从 S 生成所有可能的点组合(这将是 n 选择 6 个点)
ios - CALayer : Screen point to Layer point
我有一个在屏幕坐标中的 CGPoint。我还有一个应用了变换矩阵(缩放、旋转和平移)的 CALayer。如何将屏幕坐标中的点转换为图层的局部坐标？最佳答案 CALayer 有执行此操作的方法，请在
c# - 无法在设计时编辑 Point[] 或 List
我正在创建自定义控件，它将从点列表(或数组)中绘制形状。我已经完成了基本的绘图功能，但现在我正在为 Visual Studio 中的设计时支持而苦苦挣扎。我创建了两个属性: private Poin
javascript - point.dist = function () { ^ ReferenceError : points is not defined
此函数是从“JavaScript:权威指南”复制的，但由于某种原因它不起作用... **points.dist = function () { ^ ReferenceError: 点未定义**我对此很
Java : Compare same objects that they have same properties but do not points a same point in memory
我有一个像这样的自定义适配器: private List items = new ArrayList<>(); private Context context; public UserSpinnerA
mysql - 为什么 mysql 不在 point 列中添加一个 point？
代码: UPDATE tbl_name SET points = points + 1 WHERE 'GAME 1' LIKE "%Vikes%" GAME 1 列包含包含 Vikes
java - 我应该使用 Point.x 还是 Point.getX()？
我有一个点。我正在尝试将 x 作为 int。如果我使用 Point.x，我将得到 x 作为 int。但我的印象是我应该尽可能使用 setter/getter ( Why use getters and
html - 信誉系统 : weighted points vs unweighted points?
我正在开发一个小型信誉系统，但遇到了一个问题。因此，在我的示例中，我想为 4 种不同类型的用户创建一个图片网站；我们称他们为:业余、好、非常好、专业。每个用户可以上传一张图片，这张图片可以被其他用
python - 事件形状模型 : matching model points to target points
我有一个关于事件形状模型的问题。我正在使用 T. Coots 的论文(可以找到 here 。) 我已经完成了所有初始步骤(Procrustes 分析计算平均形状，PCA 减少尺寸)但仍停留在拟合上。
机器人 : moving Image one point to another point
Android moving Image one point (0,0) to another point (30,400). using animation or normal looping co

首页

博学

6Ren·AI

商城

floating-point - 为什么 float 不正确？