- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
整数除法的硬件指令历来非常慢。例如,对于 64 位输入,Skylake 上的 DIVQ 具有 42-95 个周期的延迟 [1](以及 24-90 的倒数吞吐量)。
然而,有更新的处理器,性能更好:Goldmont 有 14-43 延迟,Ryzen 有 14-47 延迟 [1],M1 显然有“每分频 2 个时钟周期的吞吐量”[2],甚至 Raspberry Pico具有“每个内核的 8 周期有符号/无符号除法/模电路”(尽管这似乎适用于 32 位输入)[3]。
我的问题是,发生了什么变化?是否发明了一种新算法?无论如何,新处理器采用什么算法进行除法?
[1] https://www.agner.org/optimize/#manuals
[2] https://ridiculousfish.com/blog/posts/benchmarking-libdivide-m1-avx512.html
[3] https://raspberrypi.github.io/pico-sdk-doxygen/group__hardware__divider.html#details
最佳答案
在 Ice Lake 之前的 Intel 上,64 位操作数大小是一个异常值,整数除法比 32 位操作数大小慢得多。 div r32
为 10 微指令,最坏情况下延迟为 26 个周期,但吞吐量为 6 个周期。 ( https://uops.info/ 和 https://agner.org/optimize/ ,和 Trial-division code runs 2x faster as 32-bit on Windows than 64-bit on Linux 有详细的探索。)
除法单元的构建方式没有发生根本性变化,只是扩大了硬件除法器以不需要扩展精度微代码。 (英特尔拥有 fast-ish dividers for FP 的时间更长,这基本上是相同的问题,只是只有 53 位而不是 64 位。FP 除法的难点是尾数的整数除法;减去指数很容易,并且可以并行完成。)
增量更改是指扩大基数以在每一步中处理更多位。例如,在初始(表查找?)值之后流水线化细化步骤,以提高吞吐量而不是延迟。
相关:
How sqrt() of GCC works after compiled? Which method of root is used? Newton-Raphson?现代 CPU 使用的 div/sqrt 单元的简要概述,例如 Broadwell 中新增的 Radix-1024 分频器。
Do FP and integer division compete for the same throughput resources on x86 CPUs? (在 Ice Lake 和后来的 Intel 中没有;使用专用整数单元而不是使用 FP 尾数除法/sqrt 单元的低位元素可能与使其成为 64 位宽有关。)
过去,除法单元通常根本没有流水线,因为这很难,因为我认为它需要复制大量门而不是在相同的乘法器上迭代。而且大多数软件通常会避免(或避免)整数除法,因为它在历史上非常昂贵,至少这样做的频率不够高,不会从具有相同延迟的更高吞吐量除法器中获益太多。
但是随着具有更高 IPC 的更宽 CPU 流水线缩小了部门之间的周期差距,这更值得做。此外,由于晶体管预算巨大,如果对一些程序非常有用,那么在大多数程序中花很多时间闲置的东西仍然是有意义的。 (比如更宽的 SIMD,以及像 x86 BMI2 pdep
/pext
这样的专用执行单元)。 Dark silicon是必要的,否则切屑会熔化;功率密度是一个巨大的问题,参见 Modern Microprocessors: A 90-Minute Guide!
此外,越来越多的软件是由对性能一无所知的人编写的,并且越来越多的代码避免编译时常量以支持灵 active (最终来自某些配置选项的函数参数),我会我猜现代软件不像旧程序那样避免除法。
浮点除法通常比整数更难避免,因此绝对值得拥有快速 FP 除法器。如果没有专用的整数除法单元,整数可以从低 SIMD 元素中借用尾数除法器。
因此,FP 动机可能是英特尔改进吞吐量和延迟划分的实际驱动力,尽管他们在 Ice Lake 之前留下了垃圾性能的 64 位整数除法。
关于performance - 快速硬件整数除法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70132913/
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 8年前关闭。 Improve t
暂时忘记能力的定义,只关注能力的“检查”(使用“授权!”),我看到 CanCan 添加了大约 400 毫秒,用于简单地检查用户是否具有特定的能力主题/模型。 这是预期的吗(我假设不是)?或者,有没有可
我正在阅读有关 Swift 的教程 ( http://www.raywenderlich.com/74438/swift-tutorial-a-quick-start ),它预定义为不显式设置类型,因
这主要是由于对 SQL 问题的回答。由于性能原因,有意省略了 UDF 和子查询。我没有包括可靠性并不是说它应该被视为理所当然,但代码必须工作。 性能永远是第一位的吗?提供了许多以性能为主要优先事项的答
我已经编写了一个简单的测试平台来测量三种阶乘实现的性能:基于循环的,非尾递归的和尾递归的。 Surprisingly to me the worst performant was the loop o
我已将 ui-performance 插件应用到我的应用程序中。不幸的是,在开发模式下运行应用程序时它似乎不起作用。例如,我的 javascript 导入是用“vnull”版本呈现的。 例如 不会
我有一个我操作的 F# 引用(我在各处添加对象池以回收经常创建和删除的短期对象)。我想运行结果报价;现在我使用了 F# PowerPack,它提供了将引用转换为表达式树和委托(delegate)的方法
我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。 1 个簇 8 核 24G内存 Ubuntu 16.04 星火2.2 独立配置 1名师傅/2名 worker 每个执行器的
我有一个数据库(准确地说是在 postgres 上运行),具有以下结构: user1 (schema) | - cars (table) - airplanes (table, again) .
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
在完成“Scala 中的函数式编程原则”@coursera 类(class)第 3 周的作业时,我发现当我实现视频类(class)中所示的函数联合时: override def union(tha
我正在重构我的一个 Controller 以使其成为一项服务,我想知道不将整个服务容器注入(inject)我的 Controller 是否会对性能产生影响。 这样效率更高吗: innova.path.
我有一个要显示的内容很大的文件。例如在显示用户配置文件时, 中的每个 EL 表达式需要一个 userId 作为 bean 的参数,该参数取自 session 上下文。我在 xhtml 文件中将这个 u
我非常了解 mipmapping。我不明白(在硬件/驱动程序级别)是 mipmapping 如何提高应用程序的性能(至少这是经常声称的)。在执行片段着色器之前,驱动程序不知道要访问哪个 mipmap
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: What's the (hidden) cost of lazy val? (Scala) Scala 允许定义惰
一些文章建议现在 build() 包含在 perform() 本身中,而其他人则建议当要链接多个操作时使用 build().perform()一起。 最佳答案 build() 包含在 perform(
Postgres docs说 For best optimization results, you should label your functions with the strictest vol
阅读Zero-cost abstractions看着 Introduction to rust: a low-level language with high-level abstractions我尝
我想在 MQ 服务器上部署 SSL,但我想知道我当前的 CPU 容量是否支持 SSL。 (我没有预算增加 CPU 内核和 MQ PVU 的数量) 我的规范: Windows 2003 服务器 SP2,
因此,我在 Chrome 开发者工具 的性能 选项卡内的时间 部分成功地监控了我的 React Native 应用程序的性能。 突然在应用程序的特定重新加载时,Timings 标签丢失。 我已尝试重置
我是一名优秀的程序员,十分优秀!