c++ - 具有 MPFR 的不同精度的次正规数-6ren

c++ - 具有 MPFR 的不同精度的次正规数

转载作者：搜寻专家更新时间：2023-10-31 02:15:18

29

4

我想模拟各种 n 位二进制浮点格式，每个格式都有指定的 e_max 和 e_min，p 位精度。我希望这些格式能够模拟次正规数，忠实于 IEEE-754 标准。

自然地，我的搜索将我带到了 MPFR 库，它符合 IEEE-754 标准并且能够通过 mpfr_subnormalize() 函数支持次正规。但是，我在使用 mpfr_set_emin() 和 mpfr_set_emax() 正确设置次正规环境时遇到了一些困惑。我将使用 IEEE double 作为示例格式，因为这是 MPFR 手册中使用的示例:

http://mpfr.loria.fr/mpfr-current/mpfr.html#index-mpfr_005fsubnormalize

mpfr_set_default_prec (53);
mpfr_set_emin (-1073); mpfr_set_emax (1024);

以上代码来自上述链接中的 MPFR 手册 - 请注意，e_max 和 e_min 都不等于 double 的预期值>。此处，p 设置为 53，正如 double 类型所预期的那样，但 e_max 设置为 1024，而不是正确的值 1023 , e_min 设置为 -1073；远低于 -1022 的正确值。我知道将指数边界设置得太紧会导致 MPFR 中间计算中的上溢/下溢，但我发现准确设置 e_min 对于确保正确的次正规数至关重要；太高或太低会导致次正规 MPFR 结果(使用 mprf_subnormalize() 更新)与相应的 double 结果不同。

我的问题是应该如何决定将哪些值传递给 mpfr_set_emax() 和(尤其是)mpfr_set_emin()，以保证 float 的正确次正规行为具有指数界限 e_max 和 e_min 的点格式？似乎没有关于此事的任何详细文档或讨论。

非常感谢，

詹姆斯。

编辑 2016 年 7 月 30 日:这是一个小程序，演示了为单精度数选择 e_max 和 e_min。

#include <iostream>
#include <cmath>
#include <float.h>
#include <mpfr.h>

using namespace std;

int main (int argc, char *argv[]) {
    cout.precision(120);

    // IEEE-754 float emin and emax values don't work at all
    //mpfr_set_emin (-126);
    //mpfr_set_emax (127);

    // Not quite
    //mpfr_set_emin (-147);
    //mpfr_set_emax (128);

    // Not quite
    //mpfr_set_emin (-149);
    //mpfr_set_emax (128);

    // These float emin and emax values work in subnormal range
    mpfr_set_emin (-148);
    mpfr_set_emax (128);

    cout << "emin: " << mpfr_get_emin() << "    emax: " << mpfr_get_emax() << endl;

    float f = FLT_MIN;
    for (int i = 0; i < 3; i++) f = nextafterf(f, INFINITY);

    mpfr_t m;
    mpfr_init2 (m, 24);
    mpfr_set_flt (m, f, MPFR_RNDN);

    for (int i = 0; i < 6; i++) {
        f = nextafterf(f, 0);
        mpfr_nextbelow(m);
        cout << i << ": float: " << f << endl;
        //cout << i << ":  mpfr: " << mpfr_get_flt (m, MPFR_RNDN) << endl;
        mpfr_subnormalize (m, 1, MPFR_RNDN);
        cout << i << ":  mpfr: " << mpfr_get_flt (m, MPFR_RNDN) << endl;
    }

    mpfr_clear (m);
    return 0;
}

最佳答案

我正在复制我在 ResearchGate 上给出的答案(带有指向 mpfr_subnormalize 文档的链接):

有不同的约定来表示有效数字和相关指数。 IEEE 754 选择考虑 1 和 2 之间的有效数，而 MPFR(与 C 语言一样，例如参见 DBL_MAX_EXP)选择考虑 1/2 和 1 之间的有效数(出于与多精度相关的实际原因) .例如，数字 17 在 IEEE 754 中表示为 1.0001·2⁴，在 MPFR 中表示为 0.10001·2⁵。如您所见，这意味着与 IEEE 754 相比，MPFR 中的指数增加了 1，因此对于 double ，e_max = 1024 而不是 1023。

关于选择 double 的 e_min，需要能够表示 2⁻¹⁰⁷⁴ = 0.1·2⁻¹⁰⁷³ , 因此 e_min 需要最多为 −1073(与 MPFR 中一样，所有数字均已归一化)。

如文档所述，mpfr_subnormalize函数认为次正规指数范围是从 e_min 到 e_min + PREC(x) − 1，因此例如，您需要设置 e_min = −1073 模拟 IEEE double 。

关于c++ - 具有 MPFR 的不同精度的次正规数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38664778/

29

4

0

文章推荐： c++ - 将矩阵扩展为 block 矩阵 - 索引问题

文章推荐： c++ - 如何以编程方式检索 OS X board-id 信息

文章推荐： c++ - 寄存器、c++14 和 gcc 的编译错误

JavaScript 精度
关于这个话题已经说了很多，但是我找不到我的问题的确切答案。 JavaScript 无法准确表示 0.1 等小数，这是可以理解的。例如，由于乘法运算期间发生舍入误差，这是正确的: 0.1 * 3 ==
之字形打印 float 精度
在 zig 中，可以使用“{d}”以十进制表示法打印浮点值。这将自动以全精度打印该值。有没有办法指定位数？是针对每个值，还是作为某种全局设置？最佳答案这将限制小数点后的位数，四舍五入和零填充: f
减法时的 MATLAB 精度
我正在进行的项目需要高精度。减法时我遇到的问题在这里说明: >> 1-0.9999999999999999 ans = 1.1102e-16 >> 1-0.99999999999999999 ans
Fortran - 在运行时设置变量的种类/精度
是否可以使变量本身的精度成为将在运行时定义的变量？说，如果我尝试编译: SUBROUTINE FOO( VARIABLE, PRECISION_VALUE ) IMPLICI
sqlite - 纬度查询-精度
我正在查询 SQLite 数据库以获取纬度/经度详细信息。 SELECT * FROM tblMain where latitude > -33.866 and latitude 151.20
fortran - 使用下划线定义种类/精度
我一直使用下划线将整数定义为 Fortran 中的特定类型。下面是一段代码，用于演示 1_8 的含义，例如: program main implicit none integer(2)
python - 品脱有效数字，精度
我正在寻找一种方法来告诉 pint 要打印多少个有效数字。例如，当我输入以下内容时: import pint ureg = pint.UnitRegistry() print(3*ureg.m /9)
安卓 IMU 精度
我正在从事一个项目，目标是从山上追踪动物。在第一个实地考察季中，我们使用了 OpenTags 和经过校准的摄像头，虽然可以正常工作，但需要大量的处理/校准，而且至关重要的是，当系统出现问题时无法提供任
划分时的 Javascript 精度
在 JavaScript 中有没有一种方法可以确定一个数除以另一个数是否会得到整数？就像 18.4/0.002 给我们 9200，但是 18.4/0.1 给我们 183.99999999999997。
数学库的 Javascript 精度
我正在尝试使用 Big.js 在 javascript 中完成此计算 r = (a * b)/ sqrt( ( a*sin(θ) )^2 + ( b*cos(θ) )^2 ) 我也试过 math.js
ios - gl_FragCoord 精度
我有这个片段着色器代码，它在 iOS 模拟器(非视网膜)和 iPad2(非视网膜)之间显示不同: highp vec2 textCoord; textCoord.x = gl_Fr
c++ double /精度
这个问题在这里已经有了答案: C++ calculating more precise than double or long double (2 个答案) 关闭 6 年前。是否有任何浮点类型在小
java - 位运算符 - 精度
我似乎一直困惑的三个问题: 为什么代码是 x & ~077比这行代码 x & 0177700 更好。是因为精度损失较小吗？为什么此代码对于设置数字中的第 5 位不正确？ num = num + 0x
c - float 精度
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Precision of Floating Point 我正在尝试使用一些 float 来计算概率，但我的最
c - float 精度
由于微 Controller 的精度，我定义了一个包含两个 float 比率的符号，而不是直接写结果。 #define INTERVAL (0.01F/0.499F) 代替 #defi
c - c语言搜索算法执行时间(精度)
我试图比较这 3 种搜索算法，起初我使用 time.h 库但没有任何反应，输出始终是 0.00000 秒。现在我试图在循环中使用一些计数器。但我在这里也有问题, 任何人都可以帮我处理代码吗？这是我的
c - printf() 精度
char buf[10]; int counter, x = 0; snprintf (buf, sizeof buf , "%.100d%n", x, &counter); printf("Coun
matlab:评估向量时的错误/精度
我注意到在评估向量时对我来说是不可预测的行为。直接执行它与在循环中进行索引似乎是完全不同的。谁能帮我解决这个问题？我知道可能在它如何进行每个操作中都有解释，所以我需要一些关于如何查找它的键多谢指教提
安卓 GPS 精度
我想在我的应用程序中使用精确的 gps 定位。所以我遵循了一个简单的教程(LocationManager 的基本用法，明确要求 GPS 提供商，要求更新 0 ms，0 m)并创建了一个应用程序。我对更
c++ - float 精度
float 在 1.0f 和 0.0f 之间有多少位精度，这样每个值都可以唯一表示？例如，如果第一个小数 float 不能表示 0.13f，答案就是 float 只有一位精度。最佳答案 std::

首页

博学

6Ren·AI

商城

c++ - 具有 MPFR 的不同精度的次正规数