- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在/O2
(发行版)模式下查看Visual Studio(2015U2)生成的程序集时,我看到此“手动优化”的C代码片段已转换回乘法:
int64_t calc(int64_t a) {
return (a << 6) + (a << 16) - a;
}
imul rdx,qword ptr [a],1003Fh
mov rbx,qword ptr [a]
mov rax,rbx
shl rax,6
mov rcx,rbx
shl rcx,10h
add rax,rcx
sub rax,rbx
最佳答案
没错,现代x86 CPU(尤其是Intel)具有非常高的性能倍增器。imul r, r/m
和imul r, r/m, imm
均为3个周期的延迟,即使对于64位操作数大小,在Intel SnB系列和AMD Ryzen上每1c吞吐量也需要1个周期。
在AMD Bulldozer系列中,延迟为4c或6c,每2c延迟一次或每4c吞吐量延迟一次。 (对于64位操作数大小,速度较慢)。
来自Agner Fog's instruction tables的数据。另请参见x86标签Wiki中的其他内容。
现代CPU中的晶体管预算非常庞大,并允许以如此低的延迟进行64位乘法所需的硬件并行度。 (It takes a lot of adders制作large fast multiplier。How modern X86 processors actually compute multiplications?)。
受功率预算(而不是晶体管预算)的限制,这意味着可以为许多不同功能使用专用硬件,只要它们不能全部同时开关即可(https://en.wikipedia.org/wiki/Dark_silicon)。例如您不能同时在Intel CPU上同时饱和pext
/pdep
单元,整数乘数和矢量FMA单元,因为它们中有许多都在同一执行端口上。
有趣的事实:imul r64
也是3c,因此您可以在3个周期内获得完整的64 * 64 => 128b乘法结果。 imul r32
是4c延迟和一个额外的uop。我的猜测是,额外的uop/周期会将64位结果从常规64位乘法器分成两个32位一半。
编译器通常针对延迟进行优化,并且通常不知道如何优化短的独立依赖链以实现吞吐量,而长延迟的依赖链则依赖长循环的依赖链。
gcc和clang3.8及更高版本最多使用两个LEA
指令,而不是imul r, r/m, imm
。我认为,如果替代方法是3条或更多指令(不包括imul
),则gcc将使用mov
。
这是一个合理的调整选择,因为3条指令的dep链的长度与Intel上的imul
相同。使用两个1周期指令会花费额外的时间,从而将等待时间缩短1个周期。
clang3.7和更早的版本倾向于imul
,只需要一个LEA或移位的乘法器除外。因此,最近clang更改为优化延迟,而不是优化吞吐量以乘以小常数。 (或者也许是出于其他原因,例如不与仅与乘法器位于同一端口上的其他设备竞争。)
例如this code on the Godbolt compiler explorer:
int foo (int a) { return a * 63; }
# gcc 6.1 -O3 -march=haswell (and clang actually does the same here)
mov eax, edi # tmp91, a
sal eax, 6 # tmp91,
sub eax, edi # tmp92, a
ret
关于performance - x86_64 : is IMUL faster than 2x SHL + 2x ADD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37925143/
I have a question about adding files in git. I have found multiple stackoverflow questions about
我是 visual studio 的新手,来自 Delphi。 我有一个充满 .cs 文件的目录树(根是\Common)。 我还有一个充满应用程序的目录树(根目录是\Applications) 最后,
这个问题在这里已经有了答案: Array's lookup time complexity vs. how it is stored (4 个答案) Time complexity for java
谁能告诉我这两者有什么区别: ALTER TABLE x1 ADD INDEX(a); ALTER TABLE x1 ADD INDEX(b); 和 ALTER TABLE x1 ADD INDEX(
为什么有时我们使用 getChildren() add() 而其他时候我们直接使用 add() es: https://docs.oracle.com/javafx/2/get_started/for
如何使用 bootstrap css 在输入下方添加跨度?我需要做这样的事情: 最佳答案 是这样的吗? http://jsfiddle.net/swm53ran/205/ 您可以使用纯 CSS 来实现
问题 np.add(X, 2*Y, out=X) 比 np.add(X, Y, out=X); np.add(X, Y, out=X).使用 np.add(X, Y, out=X); 是一种实际做法吗
当我跑 git add --intent-to-add .所有未跟踪的文件将其状态从“未跟踪的文件”( git status -s 显示 ?? )更改为“未暂存以进行提交的更改”( git statu
我不知道 .add 之间有什么区别和 .sink.add ? 例子: StreamController myStreamController = StreamController(); stream
getContentPane().add() 和 add() 的意思一样吗? public class TestFrame extends JFrame{ public TestFrame()
git add . 和 git add * 会完成完全相同的事情吗? 最佳答案 不,不会。 * 是一个 glob 模式,不会匹配以 开头的文件。 例如,假设这是当前目录,我有 2 个新文件要添加 fo
git的分支与合并的两种方法 git add -A和 git add . git add -u在功能上看似很相近,但还是存在一点差别 git add . :他会
git add [--all | -A] 之间有什么区别?和 git add . ? 最佳答案 此答案仅适用于 Git 版本 1.x。对于 Git 版本 2.x,请参阅其他答案。 总结: git ad
我刚刚安装了最新的 Wix v3.7。我创建了一个 VS 2010“Excel 2010 加载项”项目,并在同一个解决方案中创建了一个 Wix“安装项目”。 问题是,当我尝试从 Wix 项目中引用 A
YUI.add 和 YUI().add 有什么区别? 最佳答案 在第一种情况下,您要注册一个模块可以加载到 YUI 沙箱中,在第二种情况下,您要构建一个沙箱,然后进行注册(这是一种非常不典型的用法)。
测试代码时,任何输入到列表中的值在按下“enter”后都会消失。 我对编程和网络开发非常陌生。请具体一点,以便我理解。 function addItem(){ var item = documen
我正在浏览 python 的 dis 包。我尝试了代码以查看它是如何工作的 >>> def get(): ... x=4 ... y=x+3 ............ this lin
我已经对我的文件夹进行了版本控制 git init git add . git commit -m 'Initial commit' 我应该怎么做 git add 对于我在 .? 中创建的每个新文件
当我执行 $ git add * 时,有时我意识到 git 不会将已删除的文件添加到舞台上,如果删除或添加它,我需要手动指示,但我想不通找出 $ git add --all 有什么区别。因此,如果星号
这个问题在这里已经有了答案: Difference between "git add -A" and "git add ." (12 个答案) 关闭 6 年前。 目前,当我想提交并将内容推送到远程
我是一名优秀的程序员,十分优秀!