floating-point - 将 24 位整数快速、便携地转换为 float ，不会丢失任何位-6ren

floating-point - 将 24 位整数快速、便携地转换为 float ，不会丢失任何位

转载作者：行者123 更新时间：2023-12-04 06:47:37

26

4

在 [0, 1) 中生成随机统一 float 时，TensorFlow 目前使用 bit twiddling将 [1, 2) 中的 23 位整数转换为 float ，然后减一:

// Helper function to convert an 32-bit integer to a float between [0..1).
PHILOX_DEVICE_INLINE float Uint32ToFloat(uint32 x) {
  // IEEE754 floats are formatted as follows (MSB first):
  //    sign(1) exponent(8) mantissa(23)
  // Conceptually construct the following:
  //    sign == 0
  //    exponent == 127  -- an excess 127 representation of a zero exponent
  //    mantissa == 23 random bits
  const uint32 man = x & 0x7fffffu;  // 23 bit mantissa
  const uint32 exp = static_cast<uint32>(127);
  const uint32 val = (exp << 23) | man;

  // Assumes that endian-ness is same for float and uint32.
  float result;
  memcpy(&result, &val, sizeof(val));
  return result - 1.0f;
}

这让我很恼火，因为减一意味着我们只能得到 23 位精度，而不是可用的 24 位精度。不幸的是，朴素算法在 CPU 上慢了大约 9%(在 GPU 上速度相同):

// Helper function to convert an 32-bit integer to a float between [0..1).
PHILOX_DEVICE_INLINE float Uint32ToFloat(uint32 x) {
  return 0x1p-32f * static_cast<float>(x);
}

我还尝试过显式截断为 24 位，以防它告诉编译器舍入模式标志无关紧要；这并没有解决问题:

PHILOX_DEVICE_INLINE float Uint32ToFloat(uint32 x) {
  return 0x1p-24f * static_cast<float>(x & ((1 << 24) - 1));
}

有没有办法在不牺牲性能的情况下获得完整的 24 位可用精度？我很确定我可以在汇编中做到这一点，但需要可移植性。

请注意，对于小 float 有时，剩下的 8 位精度并不有趣:我只关心丢失的一位。

最佳答案

你可以尝试在第24位置位时不做减法:

  …
  const uint32 exp = static_cast<uint32>(126); // 0.5
  …
  if ((x & 0x800000) == 0) result -= 0.5f;
  return result;
}

不过第24位9%的penalty已经很不错了，不一定会更快。 (在这里你有时会避免减法的代价，但总是付出测试和条件分支的代价。我会让你做时间安排:0x800000 掩码可以与其余部分并行完成，但条件分支的成本完全取决于实践中值的分布。)

对于 GPU，这可以很容易地实现无分支，方法是始终执行减法，然后执行条件移动，但编译器应该自动执行此操作。

关于floating-point - 将 24 位整数快速、便携地转换为 float ，不会丢失任何位，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35350699/

26

4

0

文章推荐： speech-to-text - IBM Speech to Text 字母数字字符串识别？

文章推荐： java - 从 VB.net、ASP.net 切换到 Java 是个好主意吗？

文章推荐： PHP:清除 cron 临时文件的好脚本？

文章推荐： actionscript-3 - 引用由 Actionscript 3 中的子类定义的函数

css - float float float float ？
我知道问题的标题听起来很奇怪，但我不知道该怎么调用它。首先，我有一个网格布局，我希望我的 .search-wrapper 宽度为 50% 并向右浮动。在我的演示中 jsfiddle整个 .searc
c++ - "float = float - float"中是否存在隐式类型提升？
我们正在使用 QA-C 来实现 MISRA C++ 一致性，但是该工具会为这样的代码喷出错误: float a = foo(); float b = bar(); float c = a - b; 据
c - float* 类型的变量应该指向单个 float 还是一系列 float ？
考虑 float a[] = { 0.1, 0.2, 0.3}; 我很困惑a稍后传递给函数 foo(float* A) .不应该是 float* 类型的变量指向单个浮点数，对吗？就像这里提到的tu
c# - 存在从 'float' 和 'float' 以及从 'float' 到 'float' 的隐式转换
这可能是我一段时间以来收到的最好的错误消息，我很好奇出了什么问题。原代码 float currElbowAngle = LeftArm ? Elbow.transform.localRotation
types - 类型 'float -> float' 与类型 'float' 不匹配
刚开始学习 F#，我正在尝试为 e 生成和评估泰勒级数的前 10 项。我最初编写了这段代码来计算它: let fact n = function | 0 -> 1 | _ -> [1
floating-point - 如何从二进制文件中读取单精度 float 并转换为 Erlang float ？
我已经使用 Erlang 读取二进制文件中的 4 个字节(小端)。在尝试将二进制转换为浮点时，我一直遇到以下错误: ** exception error: bad argument in
c - 为什么将一个小 float 添加到一个大 float 中只会删除小 float ？
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
css - Float right 不会在框内 float ，而是在框外 float
我每次都想在浏览器顶部修复这个框。但是右边有一些问题我不知道如何解决所以我寻求帮助。 #StickyBar #RightSideOfStickyBar { float : right ; }
c# - 为什么 (int)==(float) 总是编译为 (float)==(float)
我正在研究 C# 编译器并试图理解数学运算规则。我发现在两种不同的原始类型之间使用 == 运算符时会出现难以理解的行为。 int a = 1; float b = 1.0f; Cons
c - 为什么将小 float 添加到大 float 只会降低小 float ？
假设我有: float a = 3 // (gdb) p/f a = 3 float b = 299792458 // (gdb) p/f b = 29979244
floating-point - 从硬件架构的角度来看，为什么非规范化 float 比其他 float 慢得多？
Denormals众所周知，与正常情况相比，表现严重不佳，大约是 100 倍。这经常导致 unexpected软件 problems . 我很好奇，从 CPU 架构的角度来看，为什么非规范化必须是那
iphone - 在 float 和 float 之间获取随机 float 的最佳方法是什么？
我有一个由两个 float 组成的区间，并且需要生成 20 个随机数，看起来介于两个 float 定义的区间之间。比方说: float a = 12.49953f float b = 39.1123
c++ - 错误 : no matching function for call to ‘QGenericMatrix<4, 3, float>::QGenericMatrix(const float&, const float&, ..., float)’
我正在构建如下矩阵: QMatrix4x3 floatPos4x3 = QMatrix4x3( floatPos0.at(0), floatPos1.at(0), floatPos2.at(0),
floating-point - 标准化 float f之后(之前)的下一个标准化 float 是什么？
给定归一化的浮点数f，在f之前/之后的下一个归一化浮点数是多少。通过微动，提取尾数和指数，我得到了: next_normalized(double&){ if mantissa is n
CSS float : Why is float applied to the element just prior to the element to be floated?
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素？为了帮助可视化我的问题，我创建了以下 jsFiddle http://
CSS float : Why is float applied to the element just prior to the element to be floated?
关于 CSS“float”属性的某些东西一直让我感到困惑。为什么将“float”属性应用到您希望 float 的元素之前的元素？为了帮助可视化我的问题，我创建了以下 jsFiddle http://
css - 如何在 float 跨度内将 float 跨度包裹在另一个 float 跨度下方 [包括图表]？
我有一个新闻源/聊天框。每个条目包含两个跨度:#user 和#message。我希望#user 向左浮动，而#message 向左浮动。如果#message 导致行超过容器宽度，#message 应该
css-float - CSS float，清除一个 "row"的 float 元素
我想创建一个“记分卡”网格来输出一些数据。如果每个 div.item 中的数据都具有相同的高度，那么在每个 div.item 上留下一个简单的 float 会提供一个漂亮的均匀布局，它可以根据浏览器大
html - CSS float 属性 - float div 与 float 段落时的行为差异
我正在学习使用 CSS float 属性。我想了解此属性的特定效果。考虑以下简单的 HTML 元素: div1 div2 This is a paragraph 以及以下 CSS 规则: div {
用于 float 或整数的 Python 正则表达式，但不将 float 拆分为两个 float
我正在尝试从可以是 int 或 float 的文件中提取数据。我发现这个正则表达式将从文件 (\d+(\.\d+)?) 中提取这两种类型，但我遇到的问题是它将 float 拆分为两个。 >>> imp

首页

博学

6Ren·AI

商城

floating-point - 将 24 位整数快速、便携地转换为 float ，不会丢失任何位