performance - x86_64 : is IMUL faster than 2x SHL + 2x ADD?-6ren

performance - x86_64 : is IMUL faster than 2x SHL + 2x ADD?

转载作者：行者123 更新时间：2023-12-04 17:08:02

35

4

在/O2(发行版)模式下查看Visual Studio(2015U2)生成的程序集时，我看到此“手动优化”的C代码片段已转换回乘法:

int64_t calc(int64_t a) {
  return (a << 6) + (a << 16) - a;
}

集会:

  imul        rdx,qword ptr [a],1003Fh

所以我想知道这是否真的比编写方式快，例如:

  mov         rbx,qword ptr [a]  
  mov         rax,rbx  
  shl         rax,6  
  mov         rcx,rbx  
  shl         rcx,10h  
  add         rax,rcx  
  sub         rax,rbx

我总是觉得乘法总是慢于几个移位/加法？现代英特尔x86_64处理器不再是这种情况吗？

最佳答案

没错，现代x86 CPU(尤其是Intel)具有非常高的性能倍增器。imul r, r/m和imul r, r/m, imm均为3个周期的延迟，即使对于64位操作数大小，在Intel SnB系列和AMD Ryzen上每1c吞吐量也需要1个周期。

在AMD Bulldozer系列中，延迟为4c或6c，每2c延迟一次或每4c吞吐量延迟一次。 (对于64位操作数大小，速度较慢)。

来自Agner Fog's instruction tables的数据。另请参见x86标签Wiki中的其他内容。

现代CPU中的晶体管预算非常庞大，并允许以如此低的延迟进行64位乘法所需的硬件并行度。 (It takes a lot of adders制作large fast multiplier。How modern X86 processors actually compute multiplications?)。

受功率预算(而不是晶体管预算)的限制，这意味着可以为许多不同功能使用专用硬件，只要它们不能全部同时开关即可(https://en.wikipedia.org/wiki/Dark_silicon)。例如您不能同时在Intel CPU上同时饱和pext/pdep单元，整数乘数和矢量FMA单元，因为它们中有许多都在同一执行端口上。

有趣的事实:imul r64也是3c，因此您可以在3个周期内获得完整的64 * 64 => 128b乘法结果。 imul r32是4c延迟和一个额外的uop。我的猜测是，额外的uop/周期会将64位结果从常规64位乘法器分成两个32位一半。

编译器通常针对延迟进行优化，并且通常不知道如何优化短的独立依赖链以实现吞吐量，而长延迟的依赖链则依赖长循环的依赖链。

gcc和clang3.8及更高版本最多使用两个LEA指令，而不是imul r, r/m, imm。我认为，如果替代方法是3条或更多指令(不包括imul)，则gcc将使用mov。

这是一个合理的调整选择，因为3条指令的dep链的长度与Intel上的imul相同。使用两个1周期指令会花费额外的时间，从而将等待时间缩短1个周期。

clang3.7和更早的版本倾向于imul，只需要一个LEA或移位的乘法器除外。因此，最近clang更改为优化延迟，而不是优化吞吐量以乘以小常数。 (或者也许是出于其他原因，例如不与仅与乘法器位于同一端口上的其他设备竞争。)

例如this code on the Godbolt compiler explorer:

int foo (int a) { return a * 63; }
    # gcc 6.1 -O3 -march=haswell (and clang actually does the same here)
    mov     eax, edi  # tmp91, a
    sal     eax, 6    # tmp91,
    sub     eax, edi  # tmp92, a
    ret

clang3.8和更高版本进行相同的代码。

关于performance - x86_64 : is IMUL faster than 2x SHL + 2x ADD?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37925143/

35

4

0

文章推荐： amazon-web-services - AWS S3保存和加载项目需要多长时间？

文章推荐： pdf - 无法在 Safari 上下载 pdf blob url

文章推荐： module - 如何在 OCaml 中使用集合？

文章推荐： cordova - PhoneGap Iframe 不工作

git add * (asterisk) vs git add . (period)(Git Add*(星号)与Git Add。(句号))
I have a question about adding files in git. I have found multiple stackoverflow questions about
c# - Visual Studio : Add Item/Add as link rather than just Add
我是 visual studio 的新手，来自 Delphi。我有一个充满 .cs 文件的目录树(根是\Common)。我还有一个充满应用程序的目录树(根目录是\Applications) 最后，
java - 为什么 ArrayList add() 和 add(int index, E) 复杂度是摊销常数时间？为什么 add() 不是 O(1)，add(int index, E) 不是 O(n)？
这个问题在这里已经有了答案: Array's lookup time complexity vs. how it is stored (4 个答案) Time complexity for java
sql - MySQL: `... ADD INDEX(a); ... ADD INDEX(b);` 和 `... ADD INDEX(a,b);` 之间的区别？
谁能告诉我这两者有什么区别: ALTER TABLE x1 ADD INDEX(a); ALTER TABLE x1 ADD INDEX(b); 和 ALTER TABLE x1 ADD INDEX(
java - getChildren() add() 和 add()
为什么有时我们使用 getChildren() add() 而其他时候我们直接使用 add() es: https://docs.oracle.com/javafx/2/get_started/for
css - Bootstrap : add add-on below input
如何使用 bootstrap css 在输入下方添加跨度？我需要做这样的事情: 最佳答案是这样的吗？ http://jsfiddle.net/swm53ran/205/ 您可以使用纯 CSS 来实现
python - numpy - (np.add(X, Y, out=X); np.add(X, Y, out=X)) 在 np.add(X, 2*Y, out=X)
问题 np.add(X, 2*Y, out=X) 比 np.add(X, Y, out=X); np.add(X, Y, out=X).使用 np.add(X, Y, out=X); 是一种实际做法吗
git - 如何撤消 `` git add --intent-to-add``
当我跑 git add --intent-to-add .所有未跟踪的文件将其状态从“未跟踪的文件”( git status -s 显示 ?? )更改为“未暂存以进行提交的更改”( git statu
dart - add 和 sink.add 有什么区别？
我不知道 .add 之间有什么区别和 .sink.add ? 例子: StreamController myStreamController = StreamController(); stream
java - getContentPane().add() 和 add() 的意思一样吗
getContentPane().add() 和 add() 的意思一样吗？ public class TestFrame extends JFrame{ public TestFrame()
git - 对于初始提交， "add ."和 "add *"是同义词吗？
git add . 和 git add * 会完成完全相同的事情吗？最佳答案不，不会。 * 是一个 glob 模式，不会匹配以开头的文件。例如，假设这是当前目录，我有 2 个新文件要添加 fo
git add -A 和 git add . 的区别详解
git的分支与合并的两种方法 git add -A和 git add . git add -u在功能上看似很相近，但还是存在一点差别 git add . ：他会
git - "git add -A"和 "git add ."之间的区别
git add [--all | -A] 之间有什么区别？和 git add . ？最佳答案此答案仅适用于 Git 版本 1.x。对于 Git 版本 2.x，请参阅其他答案。总结: git ad
Wix 工具集 : cannot add Excel Add-in project reference
我刚刚安装了最新的 Wix v3.7。我创建了一个 VS 2010“Excel 2010 加载项”项目，并在同一个解决方案中创建了一个 Wix“安装项目”。问题是，当我尝试从 Wix 项目中引用 A
javascript - YUI.add 和 YUI().add 的区别
YUI.add 和 YUI().add 有什么区别？最佳答案在第一种情况下，您要注册一个模块可以加载到 YUI 沙箱中，在第二种情况下，您要构建一个沙箱，然后进行注册(这是一种非常不典型的用法)。
javascript - "How do I add items to a list and then add to the empty space below?"
测试代码时，任何输入到列表中的值在按下“enter”后都会消失。我对编程和网络开发非常陌生。请具体一点，以便我理解。 function addItem(){ var item = documen
python - BINARY ADD 和 INPLACE ADD 的区别
我正在浏览 python 的 dis 包。我尝试了代码以查看它是如何工作的 >>> def get(): ... x=4 ... y=x+3 ............ this lin
git - 如果我在开始时执行 "add"，我应该 "add ."git 中的每个新文件吗？
我已经对我的文件夹进行了版本控制 git init git add . git commit -m 'Initial commit' 我应该怎么做 git add 对于我在 .? 中创建的每个新文件
git - $ git add --all 与 $ git add * 之间的区别？
当我执行 $ git add * 时，有时我意识到 git 不会将已删除的文件添加到舞台上，如果删除或添加它，我需要手动指示，但我想不通找出 $ git add --all 有什么区别。因此，如果星号
git - 什么时候使用 "git add ."什么时候使用 "git add -A"
这个问题在这里已经有了答案: Difference between "git add -A" and "git add ." (12 个答案) 关闭 6 年前。目前，当我想提交并将内容推送到远程

首页

博学

6Ren·AI

商城

performance - x86_64 : is IMUL faster than 2x SHL + 2x ADD?