performance - 快速硬件整数除法-6ren

performance - 快速硬件整数除法

转载作者：行者123 更新时间：2023-12-05 02:36:54

25

4

整数除法的硬件指令历来非常慢。例如，对于 64 位输入，Skylake 上的 DIVQ 具有 42-95 个周期的延迟 [1](以及 24-90 的倒数吞吐量)。

然而，有更新的处理器，性能更好:Goldmont 有 14-43 延迟，Ryzen 有 14-47 延迟 [1]，M1 显然有“每分频 2 个时钟周期的吞吐量”[2]，甚至 Raspberry Pico具有“每个内核的 8 周期有符号/无符号除法/模电路”(尽管这似乎适用于 32 位输入)[3]。

我的问题是，发生了什么变化？是否发明了一种新算法？无论如何，新处理器采用什么算法进行除法？

[1] https://www.agner.org/optimize/#manuals
[2] https://ridiculousfish.com/blog/posts/benchmarking-libdivide-m1-avx512.html
[3] https://raspberrypi.github.io/pico-sdk-doxygen/group__hardware__divider.html#details

最佳答案

在 Ice Lake 之前的 Intel 上，64 位操作数大小是一个异常值，整数除法比 32 位操作数大小慢得多。 div r32 为 10 微指令，最坏情况下延迟为 26 个周期，但吞吐量为 6 个周期。 ( https://uops.info/ 和 https://agner.org/optimize/ ，和 Trial-division code runs 2x faster as 32-bit on Windows than 64-bit on Linux 有详细的探索。)

除法单元的构建方式没有发生根本性变化，只是扩大了硬件除法器以不需要扩展精度微代码。 (英特尔拥有 fast-ish dividers for FP 的时间更长，这基本上是相同的问题，只是只有 53 位而不是 64 位。FP 除法的难点是尾数的整数除法；减去指数很容易，并且可以并行完成。)

增量更改是指扩大基数以在每一步中处理更多位。例如，在初始(表查找？)值之后流水线化细化步骤，以提高吞吐量而不是延迟。

相关:

How sqrt() of GCC works after compiled? Which method of root is used? Newton-Raphson?现代 CPU 使用的 div/sqrt 单元的简要概述，例如 Broadwell 中新增的 Radix-1024 分频器。
Do FP and integer division compete for the same throughput resources on x86 CPUs? (在 Ice Lake 和后来的 Intel 中没有；使用专用整数单元而不是使用 FP 尾数除法/sqrt 单元的低位元素可能与使其成为 64 位宽有关。)

过去，除法单元通常根本没有流水线，因为这很难，因为我认为它需要复制大量门而不是在相同的乘法器上迭代。而且大多数软件通常会避免(或避免)整数除法，因为它在历史上非常昂贵，至少这样做的频率不够高，不会从具有相同延迟的更高吞吐量除法器中获益太多。

但是随着具有更高 IPC 的更宽 CPU 流水线缩小了部门之间的周期差距，这更值得做。此外，由于晶体管预算巨大，如果对一些程序非常有用，那么在大多数程序中花很多时间闲置的东西仍然是有意义的。 (比如更宽的 SIMD，以及像 x86 BMI2 pdep/pext 这样的专用执行单元)。 Dark silicon是必要的，否则切屑会熔化；功率密度是一个巨大的问题，参见 Modern Microprocessors: A 90-Minute Guide!

此外，越来越多的软件是由对性能一无所知的人编写的，并且越来越多的代码避免编译时常量以支持灵 active (最终来自某些配置选项的函数参数)，我会我猜现代软件不像旧程序那样避免除法。

浮点除法通常比整数更难避免，因此绝对值得拥有快速 FP 除法器。如果没有专用的整数除法单元，整数可以从低 SIMD 元素中借用尾数除法器。

因此，FP 动机可能是英特尔改进吞吐量和延迟划分的实际驱动力，尽管他们在 Ice Lake 之前留下了垃圾性能的 64 位整数除法。

关于performance - 快速硬件整数除法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70132913/

25

4

0

文章推荐： python - 根据列的最大行数创建新行

文章推荐： c# - C#图像转灰度时如何解决循环错误

文章推荐： python - 如何对以下内容进行矢量化，追加可能是瓶颈

performance - "performant"软件究竟是什么意思？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
performance - 灿灿授权: Performance Issue
暂时忘记能力的定义，只关注能力的“检查”(使用“授权!”)，我看到 CanCan 添加了大约 400 毫秒，用于简单地检查用户是否具有特定的能力主题/模型。这是预期的吗(我假设不是)？或者，有没有可
performance - Swift 显式与推断类型 : Performance
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start )，它预定义为不显式设置类型，因
performance - 编码优先级 : Performance, 可维护性、可重用性？
这主要是由于对 SQL 问题的回答。由于性能原因，有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然，但代码必须工作。性能永远是第一位的吗？提供了许多以性能为主要优先事项的答
performance - Scala递归与循环: performance and runtime considerations
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的，非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
performance - ui-performance 插件无法在开发模式下工作 (Grails)
我已将 ui-performance 插件应用到我的应用程序中。不幸的是，在开发模式下运行应用程序时它似乎不起作用。例如，我的 javascript 导入是用“vnull”版本呈现的。例如不会
performance - 编译 F# 引用 : performance?
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价；现在我使用了 F# PowerPack，它提供了将引用转换为表达式树和委托(delegate)的方法
performance - Spark独立: SparklyR : Performance issues
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
performance - 架构和索引以及主键 : Differences in lookup performance?
我有一个数据库(准确地说是在 postgres 上运行)，具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
performance - iOS/核心动画 : Performance tuning
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下？它基本上是一个轮子(派生自 UIView)，包含 12 个按钮(派生自 UIControl)。
performance - coursera progfun1 : scala union performance
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时，我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
performance - Symfony2 依赖注入(inject) : performances impact
我正在重构我的一个 Controller 以使其成为一项服务，我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。这样效率更高吗: innova.path.
performance - facelet tag performance
我有一个要显示的内容很大的文件。例如在显示用户配置文件时，中的每个 EL 表达式需要一个 userId 作为 bean 的参数，该参数取自 session 上下文。我在 xhtml 文件中将这个 u
performance - OpenGL/DirectX : How does Mipmapping improve performance?
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前，驱动程序不知道要访问哪个 mipmap
performance - Scala 惰性值 : performance penalty? 线程安全？
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
java - build().perform() 和 Perform() 之间有什么区别
一些文章建议现在 build() 包含在 perform() 本身中，而其他人则建议当要链接多个操作时使用 build().perform()一起。最佳答案 build() 包含在 perform(
performance - postgres 函数 : when does IMMUTABLE hurt performance?
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
performance - 零成本抽象 : performance of for-loop vs. 迭代器
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
performance - MQ : CPU Performance 上的 SSL
我想在 MQ 服务器上部署 SSL，但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2，
performance - Chrome Performance Profiler 中的“Timings”选项卡丢失
因此，我在 Chrome 开发者工具的性能选项卡内的时间部分成功地监控了我的 React Native 应用程序的性能。突然在应用程序的特定重新加载时，Timings 标签丢失。我已尝试重置

首页

博学

6Ren·AI

商城

performance - 快速硬件整数除法