- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在检查各种编译器的各种代码片段的输出时,我注意到英特尔的 C 编译器 (ICC) 有强烈倾向于发出一对 NEG
+ADD
指令,其他编译器将使用单个 SUB
指令。
作为一个简单的示例,请考虑以下 C 代码:
uint64_t Mod3(uint64_t value)
{
return (value % 3);
}
ICC 将其转换为以下机器代码(无论优化级别如何):
mov rcx, 0xaaaaaaaaaaaaaaab
mov rax, rdi
mul rcx
shr rdx, 1
lea rsi, QWORD PTR [rdx+rdx*2]
neg rsi ; \ equivalent to:
add rdi, rsi ; / sub rdi, rsi
mov rax, rdi
ret
而其他编译器(包括 MSVC、GCC 和 Clang)都将生成本质上等效的代码,只不过 NEG
+ADD
序列被替换为单个 SUB
指令。
就像我说的,这不仅仅是 ICC 编译这个特定代码片段的一个怪癖。这是我在分析算术运算的反汇编时反复观察到的一种模式。我通常不会对此想太多,除了众所周知 ICC 是一个非常好的优化编译器并且它是由了解其微处理器内部信息的人开发的。
英特尔是否了解有关 SUB
指令在其处理器上的实现的一些信息,从而可以更优化地将其分解为 NEG
+ADD
说明?使用解码为更简单的微指令的 RISC 风格指令是现代微架构众所周知的优化建议,因此 SUB
是否有可能在内部分解为单独的 NEG
和 >ADD
µops,前端解码器使用这些“更简单”的指令实际上更高效?现代CPU很复杂,所以一切皆有可能。
Agner Fog's comprehensive instruction tables不过,这证实了我的直觉,这实际上是一种悲观情绪。 SUB
在所有处理器上与 ADD
一样高效,因此额外所需的 NEG
指令只会减慢速度。
我还通过 Intel's own Architecture Code Analyzer 运行了两个序列来分析吞吐量。尽管确切的周期计数和端口绑定(bind)因微架构而异,但从 Nehalem 到 Broadwell,单个 SUB
似乎在各个方面都更胜一筹。以下是该工具为 Haswell 生成的两个报告:
Intel(R) Architecture Code Analyzer Version - 2.2 build:356c3b8 (Tue, 13 Dec 2016 16:25:20 +0200)
Binary Format - 64Bit
Architecture - HSW
Analysis Type - Throughput
Throughput Analysis Report
--------------------------
Block Throughput: 1.85 Cycles Throughput Bottleneck: Dependency chains (possibly between iterations)
Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
| Port | 0 - DV | 1 | 2 - D | 3 - D | 4 | 5 | 6 | 7 |
---------------------------------------------------------------------------------------
| Cycles | 1.0 0.0 | 1.5 | 0.0 0.0 | 0.0 0.0 | 0.0 | 1.8 | 1.7 | 0.0 |
---------------------------------------------------------------------------------------
| Num Of | Ports pressure in cycles | |
| Uops | 0 - DV | 1 | 2 - D | 3 - D | 4 | 5 | 6 | 7 | |
---------------------------------------------------------------------------------
| 1 | 0.1 | 0.2 | | | | 0.3 | 0.4 | | CP | mov rax, 0xaaaaaaaaaaaaaaab
| 2 | | 1.0 | | | | | 1.0 | | CP | mul rcx
| 1 | 0.9 | | | | | | 0.1 | | CP | shr rdx, 0x1
| 1 | | | | | | 1.0 | | | CP | lea rax, ptr [rdx+rdx*2]
| 1 | | 0.3 | | | | 0.4 | 0.2 | | CP | sub rcx, rax
| 1* | | | | | | | | | | mov rax, rcx
Total Num Of Uops: 7
求反+加
Intel(R) Architecture Code Analyzer Version - 2.2 build:356c3b8 (Tue, 13 Dec 2016 16:25:20 +0200)
Binary Format - 64Bit
Architecture - HSW
Analysis Type - Throughput
Throughput Analysis Report
--------------------------
Block Throughput: 2.15 Cycles Throughput Bottleneck: Dependency chains (possibly between iterations)
Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
| Port | 0 - DV | 1 | 2 - D | 3 - D | 4 | 5 | 6 | 7 |
---------------------------------------------------------------------------------------
| Cycles | 1.1 0.0 | 2.0 | 0.0 0.0 | 0.0 0.0 | 0.0 | 2.0 | 2.0 | 0.0 |
---------------------------------------------------------------------------------------
| Num Of | Ports pressure in cycles | |
| Uops | 0 - DV | 1 | 2 - D | 3 - D | 4 | 5 | 6 | 7 | |
---------------------------------------------------------------------------------
| 1 | 0.1 | 0.9 | | | | 0.1 | 0.1 | | | mov rax, 0xaaaaaaaaaaaaaaab
| 2 | | 1.0 | | | | | 1.0 | | CP | mul rcx
| 1 | 1.0 | | | | | | | | CP | shr rdx, 0x1
| 1 | | | | | | 1.0 | | | CP | lea rax, ptr [rdx+rdx*2]
| 1 | | 0.1 | | | | 0.8 | 0.1 | | CP | neg rax
| 1 | 0.1 | | | | | 0.1 | 0.9 | | CP | add rcx, rax
| 1* | | | | | | | | | | mov rax, rcx
Total Num Of Uops: 8
所以,据我所知,NEG
+ADD
增加了代码大小,增加了微指令的数量,增加了执行端口的压力,并增加了数量周期,从而导致与 SUB
相比吞吐量净下降。那么为什么英特尔的编译器要这样做呢?
这只是代码生成器的一些怪癖,应该报告为缺陷,还是我在分析中遗漏了一些优点?
最佳答案
奇怪的是,我有一个简单的答案:因为 ICC 不是最佳的。
当您编写自己的编译器时,您会开始使用一些非常基本的操作代码集:NOP
、MOV
、ADD
...至 10 个操作码。您暂时不会使用 SUB
,因为它很容易被:ADD NEGgative operand
替换。 NEG
也不是基本的,因为它可能被替换为:XOR FFFF...;添加1
。
因此,您实现了相当复杂的基于位的操作数类型和大小寻址。您为单个机器代码指令(例如ADD
)执行此操作,并计划将其进一步用于大多数其他指令。但此时您的同事已完成余数优化计算的实现,而无需使用 SUB
!想象一下 - 它已经被称为“Optimal_Mod”,所以你错过了一些内部不优化的东西,不是因为你是一个坏人并且讨厌 AMD,而是因为你看到 - 它已经被称为最佳的、优化的。
英特尔编译器总体来说相当不错,但它有很长的版本历史,因此在某些罕见的情况下它可能会表现得很奇怪。我建议您将此问题告知英特尔,看看会发生什么。
关于assembly - 为什么 Intel 的编译器更喜欢 NEG+ADD 而不是 SUB?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44330079/
I have a question about adding files in git. I have found multiple stackoverflow questions about
我是 visual studio 的新手,来自 Delphi。 我有一个充满 .cs 文件的目录树(根是\Common)。 我还有一个充满应用程序的目录树(根目录是\Applications) 最后,
这个问题在这里已经有了答案: Array's lookup time complexity vs. how it is stored (4 个答案) Time complexity for java
谁能告诉我这两者有什么区别: ALTER TABLE x1 ADD INDEX(a); ALTER TABLE x1 ADD INDEX(b); 和 ALTER TABLE x1 ADD INDEX(
为什么有时我们使用 getChildren() add() 而其他时候我们直接使用 add() es: https://docs.oracle.com/javafx/2/get_started/for
如何使用 bootstrap css 在输入下方添加跨度?我需要做这样的事情: 最佳答案 是这样的吗? http://jsfiddle.net/swm53ran/205/ 您可以使用纯 CSS 来实现
问题 np.add(X, 2*Y, out=X) 比 np.add(X, Y, out=X); np.add(X, Y, out=X).使用 np.add(X, Y, out=X); 是一种实际做法吗
当我跑 git add --intent-to-add .所有未跟踪的文件将其状态从“未跟踪的文件”( git status -s 显示 ?? )更改为“未暂存以进行提交的更改”( git statu
我不知道 .add 之间有什么区别和 .sink.add ? 例子: StreamController myStreamController = StreamController(); stream
getContentPane().add() 和 add() 的意思一样吗? public class TestFrame extends JFrame{ public TestFrame()
git add . 和 git add * 会完成完全相同的事情吗? 最佳答案 不,不会。 * 是一个 glob 模式,不会匹配以 开头的文件。 例如,假设这是当前目录,我有 2 个新文件要添加 fo
git的分支与合并的两种方法 git add -A和 git add . git add -u在功能上看似很相近,但还是存在一点差别 git add . :他会
git add [--all | -A] 之间有什么区别?和 git add . ? 最佳答案 此答案仅适用于 Git 版本 1.x。对于 Git 版本 2.x,请参阅其他答案。 总结: git ad
我刚刚安装了最新的 Wix v3.7。我创建了一个 VS 2010“Excel 2010 加载项”项目,并在同一个解决方案中创建了一个 Wix“安装项目”。 问题是,当我尝试从 Wix 项目中引用 A
YUI.add 和 YUI().add 有什么区别? 最佳答案 在第一种情况下,您要注册一个模块可以加载到 YUI 沙箱中,在第二种情况下,您要构建一个沙箱,然后进行注册(这是一种非常不典型的用法)。
测试代码时,任何输入到列表中的值在按下“enter”后都会消失。 我对编程和网络开发非常陌生。请具体一点,以便我理解。 function addItem(){ var item = documen
我正在浏览 python 的 dis 包。我尝试了代码以查看它是如何工作的 >>> def get(): ... x=4 ... y=x+3 ............ this lin
我已经对我的文件夹进行了版本控制 git init git add . git commit -m 'Initial commit' 我应该怎么做 git add 对于我在 .? 中创建的每个新文件
当我执行 $ git add * 时,有时我意识到 git 不会将已删除的文件添加到舞台上,如果删除或添加它,我需要手动指示,但我想不通找出 $ git add --all 有什么区别。因此,如果星号
这个问题在这里已经有了答案: Difference between "git add -A" and "git add ." (12 个答案) 关闭 6 年前。 目前,当我想提交并将内容推送到远程
我是一名优秀的程序员,十分优秀!