- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在/O2
(发行版)模式下查看Visual Studio(2015U2)生成的程序集时,我看到此“手动优化”的C代码片段已转换回乘法:
int64_t calc(int64_t a) {
return (a << 6) + (a << 16) - a;
}
imul rdx,qword ptr [a],1003Fh
mov rbx,qword ptr [a]
mov rax,rbx
shl rax,6
mov rcx,rbx
shl rcx,10h
add rax,rcx
sub rax,rbx
最佳答案
没错,现代x86 CPU(尤其是Intel)具有非常高的性能倍增器。imul r, r/m
和imul r, r/m, imm
均为3个周期的延迟,即使对于64位操作数大小,在Intel SnB系列和AMD Ryzen上每1c吞吐量也需要1个周期。
在AMD Bulldozer系列中,延迟为4c或6c,每2c延迟一次或每4c吞吐量延迟一次。 (对于64位操作数大小,速度较慢)。
来自Agner Fog's instruction tables的数据。另请参见x86标签Wiki中的其他内容。
现代CPU中的晶体管预算非常庞大,并允许以如此低的延迟进行64位乘法所需的硬件并行度。 (It takes a lot of adders制作large fast multiplier。How modern X86 processors actually compute multiplications?)。
受功率预算(而不是晶体管预算)的限制,这意味着可以为许多不同功能使用专用硬件,只要它们不能全部同时开关即可(https://en.wikipedia.org/wiki/Dark_silicon)。例如您不能同时在Intel CPU上同时饱和pext
/pdep
单元,整数乘数和矢量FMA单元,因为它们中有许多都在同一执行端口上。
有趣的事实:imul r64
也是3c,因此您可以在3个周期内获得完整的64 * 64 => 128b乘法结果。 imul r32
是4c延迟和一个额外的uop。我的猜测是,额外的uop/周期会将64位结果从常规64位乘法器分成两个32位一半。
编译器通常针对延迟进行优化,并且通常不知道如何优化短的独立依赖链以实现吞吐量,而长延迟的依赖链则依赖长循环的依赖链。
gcc和clang3.8及更高版本最多使用两个LEA
指令,而不是imul r, r/m, imm
。我认为,如果替代方法是3条或更多指令(不包括imul
),则gcc将使用mov
。
这是一个合理的调整选择,因为3条指令的dep链的长度与Intel上的imul
相同。使用两个1周期指令会花费额外的时间,从而将等待时间缩短1个周期。
clang3.7和更早的版本倾向于imul
,只需要一个LEA或移位的乘法器除外。因此,最近clang更改为优化延迟,而不是优化吞吐量以乘以小常数。 (或者也许是出于其他原因,例如不与仅与乘法器位于同一端口上的其他设备竞争。)
例如this code on the Godbolt compiler explorer:
int foo (int a) { return a * 63; }
# gcc 6.1 -O3 -march=haswell (and clang actually does the same here)
mov eax, edi # tmp91, a
sal eax, 6 # tmp91,
sub eax, edi # tmp92, a
ret
关于performance - x86_64 : is IMUL faster than 2x SHL + 2x ADD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37925143/
过去几天我一直试图解决这个问题,但我做不到。我正在尝试生成 _ _ _ 形式的随机数。 _ _ _ _ 小数点前 3 位,然后是 4 位小数。 非常感谢任何帮助。谢谢, 院长 最佳答案 您发布的代码有
我的方法有问题。我需要从主类调用的方法的输出打印我: 需要这个输出:_ _ _ _ _ 我知道我可以将 System 的静态方法放入循环中,但这不是我想要的解决方案。我需要它来打印主类中方法的输出。
我正在学习 Scala,有一个非常基本的问题。考虑以下两个使用占位符语法的表达式 - // Syntax A val fnA = (_: Int, _: Int) => _ / _ // Synta
我正在使用图书馆 URLEmbeddedView 它在其库中定义了以下代码: func addConstraints(with view: UIView, center: CGPoint, multi
我一直在许多受人尊敬的文档中看到这个相当令人尴尬的事情:_|_ 或 (_|_) 找不到它的定义(Google 不能很好地处理符号)。那到底是什么呢? 最佳答案 来自 here :- Bottom Th
,_,( ){ ,_,| ,_,&};,_, 不知道是什么意思... 看起来像一个 bash 命令,但它可能是 s bash shell 指令或其他东西如果有人可以帮助理解这一点,我们将不胜感激。当我
所以我正在尝试构建一个函数,它接受一个元组列表并找到具有最大第二个元素的元组。但是我遇到了模式匹配错误。 这是我的代码。 resultTuple :: [((Int,Int),Int)] ->
我在 try Flow 编辑器中重现了我的情况,可以访问 here . 以下是链接发生问题时的代码: /* @flow */ type PayloadType = 1 | 2 | 3; type Tr
我在plfa读到这样一段代码。 import Relation.Binary.PropositionalEquality as Eq open Eq using (_≡_; refl; cong; s
这个问题在这里已经有了答案: Swift 3.0: compiler error when calling global func min(T,T) in Array or Dictionary e
是否有理由使用一个而不是另一个?似乎 _.some 和 _.map 更易于使用或适用于更多情况(根据我非常有限的经验),但从阅读它来看,它们听起来好像应该做同样的事情。我敢肯定还有其他这样的例子,我很
在 Xcode 7 Beta 中开始使用 Swift 2 后,出现错误 cannot invoke。是什么导致了这个问题? 我试图通过以下两个问题找出我的问题,但我仍然收到错误:Question 1
所以我玩了一会儿,试图写一些关于存在和变化的东西,我遇到了这段有趣的代码。 final case class Box[+T](val value: T) { def >>=[U](f: T =>
Here is the screenshot for the error. 遵循本教程 https://developers.google.com/places/ios-api/start 在本教程中
我正在为许多标准的 Underscore.js 函数重写底层代码,以提高我的 JavaScript 技能,但我有点受困于 _.every/ _.全部。似乎在库本身中,_.every/_.all 函数仅
我在 shell 脚本中多次看到他们在 if 比较中使用 "_",如下所示: if [ "_$str" = "_" ]; then ....; fi 上面的代码通过比较 if [ "_$str"= "
我正在尝试快速过滤字典: var data: [String: String] = [:] data = data.filter { $0.1 == "Test" } 上面的过滤器代码在 Swift
我在 Entity Framework 核心映射方面遇到了问题。我收到此异常“不支持从‘付款’到‘购买。付款’的关系,因为拥有的实体类型‘购买’不能位于非所有权关系的主要方面。”在调试此功能的测试时。
我正在尝试模拟groovy.sql.Sql调用(查询,params [],闭包)类。 下面是我正在尝试在DatabaseService类文件中的方法。 public void getUsers(Lis
在阅读 dart 代码时,我经常看到一些仅使用下划线 _ 参数调用的函数。这让我困扰了一段时间,由于 flutter 改进了它的分析消息,我有了一些线索......但我觉得我并没有真正理解这个概念:-
我是一名优秀的程序员,十分优秀!