c++ - C++ 编译器中存在哪些不常见的浮点大小？-6ren

c++ - C++ 编译器中存在哪些不常见的浮点大小？

转载作者：太空狗更新时间：2023-10-29 22:58:57

25

4

C++14 草案标准似乎对 float、double 和 long double 的具体要求相当安静，尽管这些大小似乎很常见:

float :IEEE 32 位浮点表示(大约 7 位精度，指数范围为 1e-38..1e+38)

double :IEEE 64 位浮点表示(大约 16 位精度，指数范围为 1e-308..1e+308)

long double :80 位浮点表示(大约 19 位精度，指数范围为 1e-4951..1e+4932)

目前有哪些 C++ 编译器和系统使用除这些之外的浮点大小？

我对使用标准类型的更长、更短和非二进制表示感兴趣，而不是库，因为我的主要兴趣是 C++ 程序的可移植性。

最佳答案

如果您只询问以位为单位的大小，那么奇数大小的类型仅存在于一些不使用 8 位(或 2 的另一个幂)字节的旧平台中，例如带有 36 位浮点数和 72 位 double 数的 Unisys ClearPath Dorado Servers .直到现在，那头野兽仍在积极开发中。 last version 是在 2018 年。大型机和服务器的生命周期很长，因此您仍然可以看到一些 PDP-10 and other architectures 在现代使用，并且具有现代编译器支持。但即使在较新的平台上，您仍然可以看到一些示例，例如 Intel Itanium 的 82-bit extended float format
如果您关心格式，那么有许多符合标准的 32、64 和 128 位浮点格式，它们不像 IBM z 中的 hex and decimal floating point types、Cray formats 和 VAX formats 那样符合 IEEE-754。事实上，IBM z 是非常罕见的具有十进制浮点硬件的现代平台之一，尽管如果您使用 GCC 和其他一些编译器，您可以使用它们的 built-in software support for decimal float 。 IBM 还使用特殊的 double-double 格式，直到现在，它仍然是 PowerPC 上 long double 的默认格式
在一些用于微 Controller 的现代 C/C++ 编译器中还有一些其他非标准的 24 位浮点数
这是大部分 available floating-point formats 的摘要。另见 Do any real-world CPUs not use IEEE 754? 。有关更多信息，请继续下一节

出于性能原因，C++ 中的类型通常映射到硬件类型。因此，如果 CPU 有 FPU，浮点类型将是 CPU 上可用的任何类型。在现代计算机中，IEEE-754 是硬件中的主要格式，由于 C++ 标准的要求，float 和 double 必须分别映射到至少 IEEE-754 single 和 double 精度
除了在 x86 和其他一些带有 80-bit extended precision 的罕见平台上，对更高精度类型的硬件支持是 不常见， 因此 long double 通常映射到与 double 在这些平台上相同的类型。然而，最近 long double 在许多编译器(如 GCC 或 Clang)中正在缓慢迁移到 IEEE-754 quadruple precision。由于是使用内置软件库实现的，因此性能要差很多。根据您是否喜欢更快的执行或更高的精度，您仍然可以自由选择 long double 映射到的任何类型。例如在 x86 GCC 上有 -mlong-double-64/80/128 and -m96/128bit-long-double options 来设置 long double 的填充和格式。该选项也可用于许多其他架构，如 S/390 and zSeries
PowerPC OTOH 默认使用 完全不同的 128 位长 double 格式 使用 double-double arithmetic 实现并且具有与 IEEE-754 double 相同的范围。它的精度略低于四倍精度，但速度要快得多，因为它可以利用硬件 double 算法。如上所述，您可以使用 -mabi=ibmlongdouble/ieeelongdouble options 在 2 种格式之间进行选择。该技巧也用于一些 platforms where only 32-bit float is supported 以获得接近 double
IBM z 大型机传统上使用 IBM hex float formats，现在仍在使用。但除此之外，他们还有 support IEEE-754 binary and decimal floating-point types

The format of floating-point numbers can be either base 16 S/390® hexadecimal format, base 2 IEEE-754 binary format, or base 10 IEEE-754 decimal format. The formats are based on three operand lengths for hexadecimal and binary: short (32 bits), long (64 bits), and extended (128 bits). The formats are also based on three operand lengths for decimal: _Decimal32 (32 bits), _Decimal64 (64 bits), and _Decimal128 (128 bits).

Floating-point numbers

其他架构可能有其他浮点格式，如 VAX 或 Cray。然而，由于这些大型机仍在使用中，它们较新的硬件版本也包括对 IEEE-754 的支持，就像 IBM 对大型机所做的那样
在没有 FPU 的现代平台上，浮点类型通常是 IEEE-754 单精度和 double ，以获得更好的互操作性和库支持。然而，在 8 位微 Controller 上，即使是单精度也太昂贵了，因此一些编译器支持非标准模式，其中 float 是 24 位类型。例如，XC8 编译器使用 24-bit floating-point format，它是 32 位格式的截断形式，而 NXP's MRK uses a different 24-bit float format
由于需要更窄浮点类型的图形和 AI 应用程序的兴起，许多平台也引入了 16 位浮点格式，如 IEEE-754 binary16 和 Google 的 bfloat16，编译器也对它们有一些有限的支持，如 __fp16 in GCC

关于c++ - C++ 编译器中存在哪些不常见的浮点大小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38509009/

25

4

0

文章推荐： c# - 在 Dictionary 中查找最接近的 DateTime 键

文章推荐： java - Java 7 中 0_0 的含义

文章推荐： c# - 如何在 C# 中过滤 JSON 数组

文章推荐： java - 使用新值更改 ListPreference 的摘要 (Android)

c - 错误 "invalid types ' 浮点 [100][浮点 ]' for array subscript"
这个问题已经有答案了: Invalid types 'double [100][double]' for array subscript (3 个回答) 已关闭 6 年前。我已复制下面的整个代码并在
math - 浮点;除法与乘法
您有 2 个功能； f(x)= x(((x+1)^(1/2))-(x^(1/2))) g(x)= x/(((x+1)^(1/2))+(x^(1/2))) 哪个更准确？旁注:如果你能解释为什么，
java - 浮点 - NaN
我正在从事一个关于java的研究项目，其中必须完成一些艰难的计算。然而，我已经完成了大部分工作，但停留在某个点上。我必须计算以下内容: (2.1-2.3) raised to power 0.3. 但
c - 浮点 while 循环
int main() { float x = 50; float y = 1/x; float result = y * x; float test = 41;
c++ - 浮点/整数类型转换的可靠溢出检测
有没有安全的方法来可靠地确定整数类型 T可以存储浮点整数值 f (所以 f == floor(f) )没有任何溢出？请记住，不能保证浮点类型 F与 IEC 559 (IEEE 754) 兼容，并且有
c++ - 浮点，相等比较是否足以防止被零除？
// value will always be in the range of [0.0 - maximum] float obtainRatio(float value, float maximum
c++ - 浮点 == 可以吗？
就在今天，我遇到了我们正在使用的第三方软件，在他们的示例代码中，有以下内容: // Defined in somewhere.h static const double BAR = 3.14; //
jQuery 浮点 : clear graph
是否有推荐的方法来清除 jQuery Flot 图表？我在 API 引用中找不到任何内容。最佳答案 “清除”是指“破坏整个图表”还是只是清除数据？要核对整个图表:$('#canvas_id').e
c - 对单精度(浮点)值求和时的错误传播
我正在学习单精度并想了解错误传播。根据this nice website ，加法是一个危险的操作。所以我编写了一个小的 C 程序来测试错误累积的速度。我不完全确定这是否是一种有效的测试方法。如果是，
WHERE 子句中的 SQL Server 浮点
我正在尝试查询数据库，我需要获取权重等于 60.5 的客户列表。问题是 60.5 是一个实数，我以前从未在 where 子句中使用实数查询过数据库。我已经尝试过这个: SELECT Name FRO
java - 浮点 setter 设置任意分数
这是我的“ProjectEntity”类中的代码部分(我在其中使用 hibernate 进行 SQL 调用) @Column(name = "BUDGET") private float budget
haskell - 浮点 SMT 逻辑比实际逻辑慢吗？
我用 Haskell 编写了一个应用程序，它调用 Z3 求解器来解决一些复杂公式的约束。感谢 Haskell，我可以快速切换正在使用的数据类型。当使用 SBV 的 AlgReal 类型进行计算时，我
c - C中大写和小写双(浮点)类型说明符的区别
在 C 中 double/float 有一个集合类型说明符:%f %F %g %G %e %E .有什么区别吗 %f和 %F , %g和 %G , %e和 %E ? 根据 printf和 scanf输
java - 大量(浮点)值的最佳数据结构
我正在开发一个适用于 Android 的可视化应用程序(包括运行 Android 2.2 的旧设备)。我的应用程序的输入模型包含一个区域，该区域通常由数万个顶点组成。典型模型有 50000-1000
java - (浮点)NAN 是否有一个普遍接受的值
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
c - 如何检查输入是数字(浮点)还是某个字符？
我被要求编写一个程序来查找我大学中两个输入的总和，因此我应该首先检查输入是否有效。例如，如果我输入 2534.11s35，程序应该检测到它不是该程序的有效输入，因为输入中存在 s。最佳答案 to
c - 浮点 Fastpow OpenCL
我正在尝试降低 FPGA 的逻辑利用率，但在网上找不到任何好的 float fastpow。我所说的“好”是指充分减少所使用的逻辑。如果我使用双版本我几乎没有什么改进。如果我使用其他依赖日志的 flo
c++ - 浮点/ double 的字符数据
我有一个 128 字节的内存位置。我尝试用从 1...127 开始的数据填充内存。我需要编写一个代码来获取两个参数，如偏移量、数据类型。根据参数，我需要将内存中的数据转换为提到的特定数据类型。举个
c++ - 可测试的无效浮点值。 (浮点 NULL)
我希望能够做到以下几点: float func() { if( error ) return InvalidFloatingPointValue; else return 0.0f;
c++ - 浮点，我可以信任多少小于/大于比较？
假设我有两个 float ，我想比较它们。如果一个大于另一个，程序应该采用一个 fork。如果情况正好相反，它应该走另一条路。并且它应该做同样的事情，如果被比较的值在一个仍然应该使它比较真实的方向上被

首页

博学

6Ren·AI

商城

c++ - C++ 编译器中存在哪些不常见的浮点大小？