assembly - 为什么 Intel 的编译器更喜欢 NEG+ADD 而不是 SUB？-6ren

assembly - 为什么 Intel 的编译器更喜欢 NEG+ADD 而不是 SUB？

转载作者：行者123 更新时间：2023-12-02 11:05:39

29

4

在检查各种编译器的各种代码片段的输出时，我注意到英特尔的 C 编译器 (ICC) 有强烈倾向于发出一对 NEG+ADD 指令，其他编译器将使用单个 SUB 指令。

作为一个简单的示例，请考虑以下 C 代码:

uint64_t Mod3(uint64_t value)
{
    return (value % 3);
}

ICC 将其转换为以下机器代码(无论优化级别如何):

mov       rcx, 0xaaaaaaaaaaaaaaab
mov       rax, rdi
mul       rcx
shr       rdx, 1
lea       rsi, QWORD PTR [rdx+rdx*2]
neg       rsi                            ; \  equivalent to:
add       rdi, rsi                       ; /    sub  rdi, rsi
mov       rax, rdi
ret

而其他编译器(包括 MSVC、GCC 和 Clang)都将生成本质上等效的代码，只不过 NEG+ADD 序列被替换为单个 SUB 指令。

就像我说的，这不仅仅是 ICC 编译这个特定代码片段的一个怪癖。这是我在分析算术运算的反汇编时反复观察到的一种模式。我通常不会对此想太多，除了众所周知 ICC 是一个非常好的优化编译器并且它是由了解其微处理器内部信息的人开发的。

英特尔是否了解有关 SUB 指令在其处理器上的实现的一些信息，从而可以更优化地将其分解为 NEG+ADD 说明？使用解码为更简单的微指令的 RISC 风格指令是现代微架构众所周知的优化建议，因此 SUB 是否有可能在内部分解为单独的 NEG 和 >ADD µops，前端解码器使用这些“更简单”的指令实际上更高效？现代CPU很复杂，所以一切皆有可能。

Agner Fog's comprehensive instruction tables不过，这证实了我的直觉，这实际上是一种悲观情绪。 SUB 在所有处理器上与 ADD 一样高效，因此额外所需的 NEG 指令只会减慢速度。

我还通过 Intel's own Architecture Code Analyzer 运行了两个序列来分析吞吐量。尽管确切的周期计数和端口绑定(bind)因微架构而异，但从 Nehalem 到 Broadwell，单个 SUB 似乎在各个方面都更胜一筹。以下是该工具为 Haswell 生成的两个报告:

子

Intel(R) Architecture Code Analyzer Version - 2.2 build:356c3b8 (Tue, 13 Dec 2016 16:25:20 +0200)
Binary Format - 64Bit
Architecture  - HSW
Analysis Type - Throughput

Throughput Analysis Report
--------------------------
Block Throughput: 1.85 Cycles       Throughput Bottleneck: Dependency chains (possibly between iterations)

Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
|  Port  |  0   -  DV  |  1   |  2   -  D   |  3   -  D   |  4   |  5   |  6   |  7   |
---------------------------------------------------------------------------------------
| Cycles | 1.0    0.0  | 1.5  | 0.0    0.0  | 0.0    0.0  | 0.0  | 1.8  | 1.7  | 0.0  |
---------------------------------------------------------------------------------------

| Num Of |                    Ports pressure in cycles                     |    |
|  Uops  |  0  - DV  |  1  |  2  -  D  |  3  -  D  |  4  |  5  |  6  |  7  |    |
---------------------------------------------------------------------------------
|   1    | 0.1       | 0.2 |           |           |     | 0.3 | 0.4 |     | CP | mov rax, 0xaaaaaaaaaaaaaaab
|   2    |           | 1.0 |           |           |     |     | 1.0 |     | CP | mul rcx
|   1    | 0.9       |     |           |           |     |     | 0.1 |     | CP | shr rdx, 0x1
|   1    |           |     |           |           |     | 1.0 |     |     | CP | lea rax, ptr [rdx+rdx*2]
|   1    |           | 0.3 |           |           |     | 0.4 | 0.2 |     | CP | sub rcx, rax
|   1*   |           |     |           |           |     |     |     |     |    | mov rax, rcx
Total Num Of Uops: 7

求反+加

Intel(R) Architecture Code Analyzer Version - 2.2 build:356c3b8 (Tue, 13 Dec 2016 16:25:20 +0200)
Binary Format - 64Bit
Architecture  - HSW
Analysis Type - Throughput

Throughput Analysis Report
--------------------------
Block Throughput: 2.15 Cycles       Throughput Bottleneck: Dependency chains (possibly between iterations)

Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
|  Port  |  0   -  DV  |  1   |  2   -  D   |  3   -  D   |  4   |  5   |  6   |  7   |
---------------------------------------------------------------------------------------
| Cycles | 1.1    0.0  | 2.0  | 0.0    0.0  | 0.0    0.0  | 0.0  | 2.0  | 2.0  | 0.0  |
---------------------------------------------------------------------------------------

| Num Of |                    Ports pressure in cycles                     |    |
|  Uops  |  0  - DV  |  1  |  2  -  D  |  3  -  D  |  4  |  5  |  6  |  7  |    |
---------------------------------------------------------------------------------
|   1    | 0.1       | 0.9 |           |           |     | 0.1 | 0.1 |     |    | mov rax, 0xaaaaaaaaaaaaaaab
|   2    |           | 1.0 |           |           |     |     | 1.0 |     | CP | mul rcx
|   1    | 1.0       |     |           |           |     |     |     |     | CP | shr rdx, 0x1
|   1    |           |     |           |           |     | 1.0 |     |     | CP | lea rax, ptr [rdx+rdx*2]
|   1    |           | 0.1 |           |           |     | 0.8 | 0.1 |     | CP | neg rax
|   1    | 0.1       |     |           |           |     | 0.1 | 0.9 |     | CP | add rcx, rax
|   1*   |           |     |           |           |     |     |     |     |    | mov rax, rcx
Total Num Of Uops: 8

所以，据我所知，NEG+ADD增加了代码大小，增加了微指令的数量，增加了执行端口的压力，并增加了数量周期，从而导致与 SUB 相比吞吐量净下降。那么为什么英特尔的编译器要这样做呢？

这只是代码生成器的一些怪癖，应该报告为缺陷，还是我在分析中遗漏了一些优点？

最佳答案

奇怪的是，我有一个简单的答案:因为 ICC 不是最佳的。

当您编写自己的编译器时，您会开始使用一些非常基本的操作代码集:NOP、MOV、ADD...至 10 个操作码。您暂时不会使用 SUB，因为它很容易被:ADD NEGgative operand 替换。 NEG 也不是基本的，因为它可能被替换为:XOR FFFF...;添加1。

因此，您实现了相当复杂的基于位的操作数类型和大小寻址。您为单个机器代码指令(例如ADD)执行此操作，并计划将其进一步用于大多数其他指令。但此时您的同事已完成余数优化计算的实现，而无需使用 SUB!想象一下 - 它已经被称为“Optimal_Mod”，所以你错过了一些内部不优化的东西，不是因为你是一个坏人并且讨厌 AMD，而是因为你看到 - 它已经被称为最佳的、优化的。

英特尔编译器总体来说相当不错，但它有很长的版本历史，因此在某些罕见的情况下它可能会表现得很奇怪。我建议您将此问题告知英特尔，看看会发生什么。

关于assembly - 为什么 Intel 的编译器更喜欢 NEG+ADD 而不是 SUB？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44330079/

29

4

0

文章推荐： jenkins - 使用 Jenkins 和 Groovy 写入文件

文章推荐： macos - 如何使用终端执行.command 文件？

文章推荐： msbuild - TFS 2010 通过文件系统构建发布

git add * (asterisk) vs git add . (period)(Git Add*(星号)与Git Add。(句号))
I have a question about adding files in git. I have found multiple stackoverflow questions about
c# - Visual Studio : Add Item/Add as link rather than just Add
我是 visual studio 的新手，来自 Delphi。我有一个充满 .cs 文件的目录树(根是\Common)。我还有一个充满应用程序的目录树(根目录是\Applications) 最后，
java - 为什么 ArrayList add() 和 add(int index, E) 复杂度是摊销常数时间？为什么 add() 不是 O(1)，add(int index, E) 不是 O(n)？
这个问题在这里已经有了答案: Array's lookup time complexity vs. how it is stored (4 个答案) Time complexity for java
sql - MySQL: `... ADD INDEX(a); ... ADD INDEX(b);` 和 `... ADD INDEX(a,b);` 之间的区别？
谁能告诉我这两者有什么区别: ALTER TABLE x1 ADD INDEX(a); ALTER TABLE x1 ADD INDEX(b); 和 ALTER TABLE x1 ADD INDEX(
java - getChildren() add() 和 add()
为什么有时我们使用 getChildren() add() 而其他时候我们直接使用 add() es: https://docs.oracle.com/javafx/2/get_started/for
css - Bootstrap : add add-on below input
如何使用 bootstrap css 在输入下方添加跨度？我需要做这样的事情: 最佳答案是这样的吗？ http://jsfiddle.net/swm53ran/205/ 您可以使用纯 CSS 来实现
python - numpy - (np.add(X, Y, out=X); np.add(X, Y, out=X)) 在 np.add(X, 2*Y, out=X)
问题 np.add(X, 2*Y, out=X) 比 np.add(X, Y, out=X); np.add(X, Y, out=X).使用 np.add(X, Y, out=X); 是一种实际做法吗
git - 如何撤消 `` git add --intent-to-add``
当我跑 git add --intent-to-add .所有未跟踪的文件将其状态从“未跟踪的文件”( git status -s 显示 ?? )更改为“未暂存以进行提交的更改”( git statu
dart - add 和 sink.add 有什么区别？
我不知道 .add 之间有什么区别和 .sink.add ? 例子: StreamController myStreamController = StreamController(); stream
java - getContentPane().add() 和 add() 的意思一样吗
getContentPane().add() 和 add() 的意思一样吗？ public class TestFrame extends JFrame{ public TestFrame()
git - 对于初始提交， "add ."和 "add *"是同义词吗？
git add . 和 git add * 会完成完全相同的事情吗？最佳答案不，不会。 * 是一个 glob 模式，不会匹配以开头的文件。例如，假设这是当前目录，我有 2 个新文件要添加 fo
git add -A 和 git add . 的区别详解
git的分支与合并的两种方法 git add -A和 git add . git add -u在功能上看似很相近，但还是存在一点差别 git add . ：他会
git - "git add -A"和 "git add ."之间的区别
git add [--all | -A] 之间有什么区别？和 git add . ？最佳答案此答案仅适用于 Git 版本 1.x。对于 Git 版本 2.x，请参阅其他答案。总结: git ad
Wix 工具集 : cannot add Excel Add-in project reference
我刚刚安装了最新的 Wix v3.7。我创建了一个 VS 2010“Excel 2010 加载项”项目，并在同一个解决方案中创建了一个 Wix“安装项目”。问题是，当我尝试从 Wix 项目中引用 A
javascript - YUI.add 和 YUI().add 的区别
YUI.add 和 YUI().add 有什么区别？最佳答案在第一种情况下，您要注册一个模块可以加载到 YUI 沙箱中，在第二种情况下，您要构建一个沙箱，然后进行注册(这是一种非常不典型的用法)。
javascript - "How do I add items to a list and then add to the empty space below?"
测试代码时，任何输入到列表中的值在按下“enter”后都会消失。我对编程和网络开发非常陌生。请具体一点，以便我理解。 function addItem(){ var item = documen
python - BINARY ADD 和 INPLACE ADD 的区别
我正在浏览 python 的 dis 包。我尝试了代码以查看它是如何工作的 >>> def get(): ... x=4 ... y=x+3 ............ this lin
git - 如果我在开始时执行 "add"，我应该 "add ."git 中的每个新文件吗？
我已经对我的文件夹进行了版本控制 git init git add . git commit -m 'Initial commit' 我应该怎么做 git add 对于我在 .? 中创建的每个新文件
git - $ git add --all 与 $ git add * 之间的区别？
当我执行 $ git add * 时，有时我意识到 git 不会将已删除的文件添加到舞台上，如果删除或添加它，我需要手动指示，但我想不通找出 $ git add --all 有什么区别。因此，如果星号
git - 什么时候使用 "git add ."什么时候使用 "git add -A"
这个问题在这里已经有了答案: Difference between "git add -A" and "git add ." (12 个答案) 关闭 6 年前。目前，当我想提交并将内容推送到远程

首页

博学

6Ren·AI

商城

assembly - 为什么 Intel 的编译器更喜欢 NEG+ADD 而不是 SUB？