gpt4 book ai didi

将单精度 float 转换为半精度 float

转载 作者:行者123 更新时间:2023-12-01 13:13:29 25 4
gpt4 key购买 nike

我正在努力用 C 将 32 位 float 转换为 16 位 float 。

我理解规范化、反规范化等概念。

但我没能理解下面的结果。

此转换符合 IEEE 754 标准。 (使用舍入到偶数模式)

32bit floating point
00110011 01000000 00000000 00000000

converted 16bit floating point
00000000 00000001

这就是我采取的步骤。

给定32位 float 的符号位为0,exp字段为102,其余为小数位字段。

所以 exp 字段 102 必须是 -127 偏差,所以它变成 -25,如下所示。

// since exp field is not zero, there will be leading 1.
1.1000000 00000000 00000000 * 2^(-25)

将上述数字转换为半精度 float 时,我们必须在指数上加上偏差(15)以对 exp 字段进行编码。

所以 exp 字段是 -10。

由于编码后的exp域小于0,给定的32位 float 无法成功表达为半精度 float 。

所以我认为半精度浮点位模式将如下所示

00000000 00000000

但是为什么 00000000 00000001

我看过很多上传到stackoverflow上的文章,但它们只是代码示例,并没有真正处理内部行为。

有人可以反驳我的误解吗?

最佳答案

要获得 -10 的偏置指数,您需要通过将尾数位右移 11 来创建一个非规范化数字(指数字段中为 0)。这将为您提供 00000 00000 11000... 对于尾数位,然后将其四舍五入为 00000 00001——可能的最小非范数。


一个 IEEE fp 数有一个 1 位符号、一个 n 位指数字段和一个 m 位尾数字段。对于 n 位指数字段,全 1 值表示 Inf 或 Nan,全 0 值表示代数或零(取决于尾数位)。因此只有 1..2n-2 范围内的指数对归一化数字有效。

因此,当您计算“归一化和有偏差”指数时,如果它 ≤ 0,则您需要生成一个非范数(或零)。标准化数字的值为

-1S(1.0 + 2-mM)2E-bias

(其中 M 是尾数字段中被视为无符号整数的值,m 是尾数位数——有些描述将其写为 1.M)。 denorm 的值为

-1S(0.0 + 2-mM)21-偏置

也就是说,指数与偏置指数值 1 相同,但是“隐藏位”(添加到尾数顶部的额外位)被视为 0 而不是 1。因此要转换您的具有-10的(偏置)指数的归一化数为denorm,您需要将尾数(包括通常不存储的隐藏1位)移动1 - -10位(即11位)以获得尾数你想要的 denorm 值。由于这将始终移动至少一位(对于任何≤ 0 的偏置指数),它会将 0 移动到隐藏位位置,与尾数的非范数含义相匹配。如果指数足够小,它将完全移出尾数,为您提供 0 尾数(即零)。但是在您的特定情况下,即使它完全移出了 10 个(以 fp16 格式表示)位,保护位仍然是 1,因此它四舍五入为 1。

关于将单精度 float 转换为半精度 float ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58250512/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com