- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我想模拟各种 n 位二进制浮点格式,每个格式都有指定的 e_max 和 e_min,p 位精度。我希望这些格式能够模拟次正规数,忠实于 IEEE-754 标准。
自然地,我的搜索将我带到了 MPFR 库,它符合 IEEE-754 标准并且能够通过 mpfr_subnormalize()
函数支持次正规。但是,我在使用 mpfr_set_emin()
和 mpfr_set_emax()
正确设置次正规环境时遇到了一些困惑。我将使用 IEEE double 作为示例格式,因为这是 MPFR 手册中使用的示例:
http://mpfr.loria.fr/mpfr-current/mpfr.html#index-mpfr_005fsubnormalize
mpfr_set_default_prec (53);
mpfr_set_emin (-1073); mpfr_set_emax (1024);
以上代码来自上述链接中的 MPFR 手册 - 请注意,e_max 和 e_min 都不等于 double
的预期值>。此处,p 设置为 53,正如 double
类型所预期的那样,但 e_max 设置为 1024,而不是正确的值 1023 , e_min 设置为 -1073;远低于 -1022 的正确值。我知道将指数边界设置得太紧会导致 MPFR 中间计算中的上溢/下溢,但我发现准确设置 e_min 对于确保正确的次正规数至关重要;太高或太低会导致次正规 MPFR 结果(使用 mprf_subnormalize()
更新)与相应的 double
结果不同。
我的问题是应该如何决定将哪些值传递给 mpfr_set_emax()
和(尤其是)mpfr_set_emin()
,以保证 float 的正确次正规行为具有指数界限 e_max 和 e_min 的点格式?似乎没有关于此事的任何详细文档或讨论。
非常感谢,
詹姆斯。
编辑 2016 年 7 月 30 日:这是一个小程序,演示了为单精度数选择 e_max 和 e_min。
#include <iostream>
#include <cmath>
#include <float.h>
#include <mpfr.h>
using namespace std;
int main (int argc, char *argv[]) {
cout.precision(120);
// IEEE-754 float emin and emax values don't work at all
//mpfr_set_emin (-126);
//mpfr_set_emax (127);
// Not quite
//mpfr_set_emin (-147);
//mpfr_set_emax (128);
// Not quite
//mpfr_set_emin (-149);
//mpfr_set_emax (128);
// These float emin and emax values work in subnormal range
mpfr_set_emin (-148);
mpfr_set_emax (128);
cout << "emin: " << mpfr_get_emin() << " emax: " << mpfr_get_emax() << endl;
float f = FLT_MIN;
for (int i = 0; i < 3; i++) f = nextafterf(f, INFINITY);
mpfr_t m;
mpfr_init2 (m, 24);
mpfr_set_flt (m, f, MPFR_RNDN);
for (int i = 0; i < 6; i++) {
f = nextafterf(f, 0);
mpfr_nextbelow(m);
cout << i << ": float: " << f << endl;
//cout << i << ": mpfr: " << mpfr_get_flt (m, MPFR_RNDN) << endl;
mpfr_subnormalize (m, 1, MPFR_RNDN);
cout << i << ": mpfr: " << mpfr_get_flt (m, MPFR_RNDN) << endl;
}
mpfr_clear (m);
return 0;
}
最佳答案
我正在复制我在 ResearchGate 上给出的答案(带有指向 mpfr_subnormalize
文档的链接):
有不同的约定来表示有效数字和相关指数。 IEEE 754 选择考虑 1 和 2 之间的有效数,而 MPFR(与 C 语言一样,例如参见 DBL_MAX_EXP
)选择考虑 1/2 和 1 之间的有效数(出于与多精度相关的实际原因) .例如,数字 17 在 IEEE 754 中表示为 1.0001·24,在 MPFR 中表示为 0.10001·25。如您所见,这意味着与 IEEE 754 相比,MPFR 中的指数增加了 1,因此对于 double ,emax = 1024 而不是 1023。
关于选择 double 的 emin,需要能够表示 2−1074 = 0.1·2−1073 , 因此 emin 需要最多为 −1073(与 MPFR 中一样,所有数字均已归一化)。
如文档所述,mpfr_subnormalize
函数认为次正规指数范围是从 emin 到 emin + PREC(x) − 1,因此例如,您需要设置 emin = −1073 模拟 IEEE double 。
关于c++ - 具有 MPFR 的不同精度的次正规数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38664778/
关于这个话题已经说了很多,但是我找不到我的问题的确切答案。 JavaScript 无法准确表示 0.1 等小数,这是可以理解的。 例如,由于乘法运算期间发生舍入误差,这是正确的: 0.1 * 3 ==
在 zig 中,可以使用“{d}”以十进制表示法打印浮点值。这将自动以全精度打印该值。有没有办法指定位数?是针对每个值,还是作为某种全局设置? 最佳答案 这将限制小数点后的位数,四舍五入和零填充: f
我正在进行的项目需要高精度。减法时我遇到的问题在这里说明: >> 1-0.9999999999999999 ans = 1.1102e-16 >> 1-0.99999999999999999 ans
是否可以使变量本身的精度成为将在运行时定义的变量? 说,如果我尝试编译: SUBROUTINE FOO( VARIABLE, PRECISION_VALUE ) IMPLICI
我正在查询 SQLite 数据库以获取纬度/经度详细信息。 SELECT * FROM tblMain where latitude > -33.866 and latitude 151.20
我一直使用下划线将整数定义为 Fortran 中的特定类型。 下面是一段代码,用于演示 1_8 的含义,例如: program main implicit none integer(2)
我正在寻找一种方法来告诉 pint 要打印多少个有效数字。例如,当我输入以下内容时: import pint ureg = pint.UnitRegistry() print(3*ureg.m /9)
我正在从事一个项目,目标是从山上追踪动物。在第一个实地考察季中,我们使用了 OpenTags 和经过校准的摄像头,虽然可以正常工作,但需要大量的处理/校准,而且至关重要的是,当系统出现问题时无法提供任
在 JavaScript 中有没有一种方法可以确定一个数除以另一个数是否会得到整数?就像 18.4/0.002 给我们 9200,但是 18.4/0.1 给我们 183.99999999999997。
我正在尝试使用 Big.js 在 javascript 中完成此计算 r = (a * b)/ sqrt( ( a*sin(θ) )^2 + ( b*cos(θ) )^2 ) 我也试过 math.js
我有这个片段着色器代码,它在 iOS 模拟器(非视网膜)和 iPad2(非视网膜)之间显示不同: highp vec2 textCoord; textCoord.x = gl_Fr
这个问题在这里已经有了答案: C++ calculating more precise than double or long double (2 个答案) 关闭 6 年前。 是否有任何浮点类型在小
我似乎一直困惑的三个问题: 为什么代码是 x & ~077比这行代码 x & 0177700 更好。是因为精度损失较小吗? 为什么此代码对于设置数字中的第 5 位不正确? num = num + 0x
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Precision of Floating Point 我正在尝试使用一些 float 来计算概率,但我的最
由于微 Controller 的精度,我定义了一个包含两个 float 比率的符号,而不是直接写结果。 #define INTERVAL (0.01F/0.499F) 代替 #defi
我试图比较这 3 种搜索算法,起初我使用 time.h 库但没有任何反应,输出始终是 0.00000 秒。现在我试图在循环中使用一些计数器。但我在这里也有问题, 任何人都可以帮我处理代码吗? 这是我的
char buf[10]; int counter, x = 0; snprintf (buf, sizeof buf , "%.100d%n", x, &counter); printf("Coun
我注意到在评估向量时对我来说是不可预测的行为。直接执行它与在循环中进行索引似乎是完全不同的。谁能帮我解决这个问题?我知道可能在它如何进行每个操作中都有解释,所以我需要一些关于如何查找它的键 多谢指教提
我想在我的应用程序中使用精确的 gps 定位。所以我遵循了一个简单的教程(LocationManager 的基本用法,明确要求 GPS 提供商,要求更新 0 ms,0 m)并创建了一个应用程序。我对更
float 在 1.0f 和 0.0f 之间有多少位精度,这样每个值都可以唯一表示? 例如,如果第一个小数 float 不能表示 0.13f,答案就是 float 只有一位精度。 最佳答案 std::
我是一名优秀的程序员,十分优秀!