floating-point - 浮点相加与浮点乘以整数的精度-6ren

floating-point - 浮点相加与浮点乘以整数的精度

转载作者：行者123 更新时间：2023-12-02 04:12:57

25

4

在我的计算机科学类(class)中，我们正在研究 float 以及它们在内存中的表示方式。我已经了解它们在内存中的表示方式(尾数/尾数、指数及其偏差以及符号位)，并且我了解 float 如何彼此相加和相减(非规范化和所有这些有趣的东西)。然而，在查看一些学习问题时，我发现了一些我无法解释的事情。

当一个无法精确表示的 float 与自身相加多次时，答案会低于我们在数学上的预期，但当同一个 float 乘以一个整数时，答案会精确地得出正确的数字。

这是我们学习问题中的一个示例(该示例是用 Java 编写的，为了简单起见，我对其进行了编辑):

float max = 10.0f; /* Defined outside the function in the original code */
float min = 1.0f; /* Defined outside the function in the original code */
int count = 10; /* Passed to the function in the original code */
float width = (max - min) / count;
float p = min + (width * count);

在此示例中，我们被告知结果恰好为 10.0。但是，如果我们将此问题视为 float 之和，我们会得到略有不同的结果:

float max = 10.0f; /* Defined outside the function in the original code */
float min = 1.0f; /* Defined outside the function in the original code */
int count = 10; /* Passed to the function in the original code */
float width = (max - min) / count;

for(float p=min; p <= max; p += width){
    System.out.printf("%f%n", p);
}

我们得知，此测试中 p 的最终值为 ~9.999999，两者之间的差异为 -9.536743E-7 p 的最后一个值和 max 的值。从逻辑的角度来看(了解 float 如何工作)，这个值是有意义的。

但我不明白的是，为什么我们在第一个示例中得到的结果恰好是 10.0。从数学上讲，我们得到 10.0 是有道理的，但知道 float 如何存储在内存中，这对我来说没有意义。谁能解释一下为什么我们通过将不精确的 float 与整数相乘来得到精确的值？

编辑:澄清一下，在最初的研究问题中，一些值被传递给函数，而其他值则在函数外部声明。我的示例代码是研究问题示例的缩短和简化版本。由于某些值被传递到函数中而不是显式定义为常量，因此我相信可以排除编译时的简化/优化。

最佳答案

首先，一些挑剔:

When a float that cannot be precisely represented

不存在“无法精确表示的 float ”。全部float s可以精确地表示为float s。

is added to itself several times, the answer is lower than we would mathematically expect,

当您多次将一个数字与自身相加时，您实际上可以得到比您预期更高的值。我将使用 C99 hexfloat notation 。考虑f = 0x1.000006p+0f 。然后f+f = 0x1.000006p+1f , f+f+f = 0x1.800008p+1f , f+f+f+f = 0x1.000006p+2f , f+f+f+f+f = 0x1.400008p+2f , f+f+f+f+f+f = 0x1.80000ap+2f ，和f+f+f+f+f+f+f = 0x1.c0000cp+2f 。然而，7.0*f = 0x1.c0000a8p+2 ，四舍五入为 0x1.c0000ap+2f ，小于f+f+f+f+f+f+f .

but when that same float is multiplied by an integer, the answer, comes out precisely to the correct number.

7 * 0x1.000006p+0f不能表示为 IEEE float 。因此它会被舍入。使用舍入到最近的舍入到偶数的默认舍入模式，当您执行这样的单个算术运算时，您将获得最接近精确结果的 float 。

The thing that I do not understand, though, is why we get exactly 10.0 for the first example. Mathematically, it makes sense that we would get 10.0, but knowing how floats are stored in memory, it does not make sense to me. Could anyone explain why we get a precise and exact value by multiplying an imprecise float with an int?

为了回答你的问题，你会得到不同的结果，因为你做了不同的操作。您在这里得到“正确”答案有点侥幸。

让我们交换一下数字。如果我计算0x1.800002p+0f / 3 ，我得到0x1.00000155555...p-1 ，四舍五入为 0x1.000002p-1f 。当我将其增加三倍时，我得到 0x1.800003p+0f ，四舍五入(因为我们打破平局)为 0x1.800004p+0f 。这与计算 f+f+f 得到的结果相同在float算术其中f = 0x1.000002p-1f .

关于floating-point - 浮点相加与浮点乘以整数的精度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35513136/

25

4

0

文章推荐： InfluxDB 随时间变化的不同计数的平均值

文章推荐： api - 从网络上的 Branch.io 检索深层链接数据

文章推荐： tfs - 在 TFS 2015 中执行无基础合并是否有其他选择？

文章推荐： html - 创建QR码Base64并放入HTML的IMG标签

Fortran:整数*4 vs 整数(4) vs 整数(kind=4)
我正在尝试学习 Fortran，并且看到了很多不同的定义，我想知道他们是否正在尝试完成同样的事情。以下有什么区别？整数*4 整数(4) 整数(kind=4) 最佳答案在 Fortran >=90
list - 转换 [整数] -> 整数
我以前从未编程过，最近(1 周前)才开始学习!第一门类(class)是函数式编程，使用 Haskell。我有一项学校作业，我想通过删除一两个步骤来改进它，但我遇到了一个讨厌的错误。基本上，我创建了
graphql - 变量和参数的类型不匹配(整数/整数)
给定以下GraphQL请求和变量: 请求: query accounts($filter:AccountFilter, $first_:String, $skip_:Int) { accounts
javascript - 整数、整数+点和小数的正则表达式
我已经搜索了 StackOverflow，但找不到关于如何检查计算器应用程序的数字输入正则表达式的答案，该计算器应用程序将检查每个 keyup 的以下格式(jquery key up): 任何整数，例
Java 图形 : setClip vs clipRect vs repaint(int, 整数、整数、整数)
类似于我上一篇致歉的文章，但没有那么长篇大论。基本上我想知道当每次重绘调用只重绘屏幕的一小部分时，优化重绘到 JFrame/JPanel 的最佳选择是什么。此外，除了重绘重载之外，我并不是 100%
math - F#:整数 (%) 整数 - 是如何计算的？
所以在我的教科书中有一个使用 f# 的递归函数的例子 let rec gcd = function | (0,n) -> n | (m,n) -> gcd(n % m,m);; 使用此功能，我的教科书
haskell - 给测量数据结构的函数赋予什么类型？整数，整数，积分？
我有一个数据结构，例如表达式树或图形。我想添加一些“测量”功能，例如depth和 size . 如何最好地键入这些函数？我认为以下三个变体的用处大致相同: depth :: Expr -> Int
java - compareTo 与原语 -> 整数/整数
这样写比较好 int primitive1 = 3, primitive2 = 4; Integer a = new Integer(primitive1); Integer b = new Inte
Java 8 HashMap<整数, ArrayList<整数>>
我是 Java 8 新手，想根据键对 Map 进行排序，然后在值内对每个列表进行排序。我试图寻找一种 Java 8 方法来对键和值进行排序。HashMap>映射 map.entrySet().str
C++: vector <对< vector <整数>，整数>>
这就是我的目标... vector ,int> > var_name (x, pair (y),int>); 其中 x 是 vector var_name 的大小，y 是对内 vector 的大小。
java - 队列<整数> q = new LinkedList<整数>()
这里是 an answer to "How do I instantiate a Queue object in java?" , Queue is an interface. You can't i
java - 整数 i=3 vs 整数 i= 新整数 (3)
这个问题在这里已经有了答案: Weird Integer boxing in Java (12 个答案) Why are autoboxed Integers and .getClass() val
C++: 对< vector <整数>, vector <整数>> p;
我们可以使用 C++ STL 做这样的事情吗？如果是，我将如何初始化元素？我试图这样做，但没有成功。 pair,vector>p; p.first[0]=2; 最佳答案 Can we do som
javascript - 基于值(整数，字符串)或(整数， float )的混合返回数组的索引
您好，我正在尝试为百分比和整数数组中的数字找到索引。假设 arraynum = ['10%','250','20%','500'] 并且用户发送一个值 15%，这个数字在哪个范围内居住？我可以使用这段
mysql - 将 AVG(整数) 与类别的 AVG(整数) 进行比较
我与三列有关系:ProductName、CategoryID 和 Price。我需要选择仅那些价格高于给定类别中平均产品价格的产品。(例如，当apple(ProductName)是fruit(Cate
c++ - 如何打印对的第二部分？ EX : pair>
我已经坚持了一段时间，我正在尝试将一些数据配对在一起。这是我的代码。 #include #include using namespace std; int main() { pair data(
swift - '(整数，整数 )' is not identical to ' CGPoint'
我收到错误:'(Int, Int)' 与 'CGPoint' 不相同如何将 (Int, Int) 转换为 CGPoint let zigzag = [(100,100), (100,150)
c++ - 这是什么 C++ 语言构造 : # (i. e。哈希)整数 "path_to_header_or_cpp_file"<整数>？
我在 .cpp 文件中发现了以下代码。我不理解涉及头文件的构造或语法。我确实认识到这些特定的头文件与 Android NDK 相关。但是，我认为这个问题是关于 C++ 语法的一般问题。这些在某种程度上
scala - 整数 vs 整数 : type mismatch, 找到 : Int, 需要:字符串
我将这些输入到 Scala 解释器中: val a : Integer = 1; val b : Integer = a + 1; 我收到消息: :5: error: type mismatch;
c++ - vector <对<整数，整数>>v(大小)；打印时显示 0 作为值
C++:vector>v(size);当我试图打印出值时显示 0 作为值，但是当未声明 vector 大小时它显示正确的输出？为什么这样？例如: int x; cin>>x; vector>v(x);

首页

博学

6Ren·AI

商城

floating-point - 浮点相加与浮点乘以整数的精度