assembly - 常量乘法 - imul 或 shl-add-combination-6ren

assembly - 常量乘法 - imul 或 shl-add-combination

转载作者：搜寻专家更新时间：2023-10-30 23:53:33

25

4

这个问题是关于我们如何将一个整数与一个常数相乘。那么让我们看一个简单的函数:

int f(int x) {
    return 10*x;
}

如何才能最好地优化该函数，尤其是在内联到调用方时？

方法 1(由大多数优化编译器生成(例如 on Godbolt))

    lea    (%rdi,%rdi,4), %eax
    add    %eax, %eax

方法 2(使用 clang3.6 及更早版本生成，使用 -O3)

    imul   $10, %edi, %eax

方法 3(使用 g++6.2 生成，未优化，删除存储/重新加载)

    mov    %edi, %eax
    sal    $2, %eax
    add    %edi, %eax
    add    %eax, %eax

哪个版本最快，为什么？主要对 Intel Haswell 感兴趣。

最佳答案

根据 Agner Fog's testing (以及 AIDA64 等其他东西)自 Core2 以来的英特尔 CPU 的 imul r32,r32, imm 延迟为 3c，吞吐量为每 1c。自 Nehalem 以来，64 位乘法也那么快。 (Agner 说 Nehalem 的 imul r64,r64,imm 比 imul r64,r64 慢(2c 吞吐量)，但这与其他结果不匹配。Instlatx64 says 1c. )

Ryzen 之前的 AMD CPU 速度较慢，例如对于 32 位乘法，Steamroller 有 lat=4c tput=one per 2c。对于 64 位乘法，lat=6c tput=one per 4c。 AMD Ryzen 具有与 Intel 一样出色的乘法性能。

在寻址模式下具有 2 个组件的 LEA(基址 + 索引，但没有恒定位移)在所有 Intel CPU 上以 1c 延迟运行¹，除了 Atom，LEA 在不同阶段运行流水线(在实际的 AGU 中，而不是 ALU)并且需要比“正常”ALU 指令早 4c 就绪的输入。相反，我认为它的输入会更快准备好，因此 ADD 可以使用相同周期的结果。 (我没有对此进行测试，也没有任何 Atom 硬件。)

在 Intel SnB 系列上，simple-LEA 可以在端口 1 或 5 上运行，因此它的吞吐量是 IMUL 的两倍。

ADD 可以在任何 CPU 上的任何 ALU 端口上运行。 HSW 引入了第 4 个 ALU 端口(相对于 IvyBridge)，因此它可以维持每个时钟 4 个 ALU 微指令(理论上)。

所以 LEA+ADD 版本在大多数 x86 CPU 上有 2c 延迟，而在 Haswell 上每个时钟可以运行两次乘法。

脚注 1:在 AMD(包括 Zen/Zen2)上，缩放索引使 LEA“变慢”(2 个周期延迟并在更少的端口上运行)。例如lea r32，[r64+r64*2] 在 2 个周期延迟下测得 on Zen2与 1 个周期 on Skylake . (Agner Fog 还提到 lea r32, [r64...] 在 AMD 上速度较慢，但这可能只是推土机效应；在 Zen/Zen2 的 https://uops.info/'s 结果中并不明显。 )

但是，如果乘法只是更大的周围循环的一小部分，它会限制总 uop 吞吐量，而不是乘法延迟或吞吐量，则 IMUL 版本更好。

如果您的乘法常数对于两个 LEA 或 SHL+LEA 来说太大，那么您可能最好使用 IMUL，尤其是在主要针对具有极高性能整数乘法器的 Intel CPU 进行调整时。

SHL+LEA 或 SHL+SUB 可能有用，例如乘以 63。(来自 Godbolt:gcc6.2 -O3 -march=haswell)

    movl    %edi, %eax
    sall    $6, %eax
    subl    %edi, %eax

在 Haswell 上，MOV 是零延迟的，这只有 2c 延迟。但对于 imull $63, %edi, %eax，它是 3 个融合域 uops 而不是 1 个。所以它在管道中有更多的微指令，减少了 CPU 可以“看到”进行乱序执行的超前距离。它还增加了 uop 缓存和 L1 I 缓存的压力，因为它需要更多的指令字节，因此编译器会始终选择这种策略。

在 IvyBridge 之前的 CPU 上，这绝对比 IMUL 差，除非有其他东西在竞争端口 1，因为它是 3c 延迟(MOV 在关键路径依赖链上，并且有 1c 延迟)。

和往常一样，没有一个 asm 片段可以说是适用于所有情况的最佳选择。这取决于周围代码中的瓶颈是什么:延迟、吞吐量或 uops。

对于不同微架构上的相同周边代码，答案也会不同。

关于assembly - 常量乘法 - imul 或 shl-add-combination，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40564004/

25

4

0

文章推荐： c++ - 在 C++ 中初始化 vector 类成员

文章推荐： C++:如何从定义的容器对象中获取迭代器类型

文章推荐： c++ - Rcpp - 定义采用 R 函数和省略号参数的 C++ 函数

C++ *常量 *常量
我试图为此搜索答案，但我发现很难找到这种“确切”的例子。我对指向指针的指针知之甚少，我觉得除了指向某物的指针之外，还有更多东西隐藏在它的表层之下。那么你们会如何翻译呢？ void free(sham
c++ - 常量 CFoo &bar() 常量
我有一个类的属性，比如const CFoo &bar() const，这是什么意思？最佳答案 bar 方法返回对 const CFoo 的引用(即 bar 之前的 const CFoo & 部分)，
c++ - 常量 int = int 常量？
例如是 int const x = 3; 有效代码？如果是的话，意思是一样的 const int x = 3; ? 最佳答案它们都是有效的代码并且它们都是等价的。对于指针类型，尽管它们都是有效代码
c++ - 常量 T & 与 T & 常量。有什么不同？
我知道 f(const T& obj) // (1) g(T const& obj) // (2) 是一样的。(我们不能改变f和g中obj的值)。但是什么 h(T & const) // (3) 真
PHP基础教程六之函数、常量
本节讲解的内容 include和include_once require和require_once 常量引入文件和常量结合案列变量操作函数输出语句前言在上篇文章中，我们讨论了函数的应用，但是
JavaScript 常量
我们知道我们可以保护变量的值，因此用户无法更改现有变量的值!这对对象来说没有什么问题吗？？例如.. const x = 5; x = 10; alert(x) // will be returned
常量 for 循环产生错误的结果
我正准备为 CUDA 设备编写直方图内核。它基于 NVIDIA's paper . 这个想法是每个线程计算某个部分(在我的例子中是体积)的部分直方图并将其写入共享内存块。然而，我遇到了一个奇怪的算法问
C# 常量
常量是固定值，程序执行期间不会改变。常量可以是任何基本数据类型，比如整数常量、浮点常量、字符常量或者字符串常量，还有枚举常量。常量可以被当作常规的变量，只是它们的值在定义后不能被修改。整数常
perl - 如何区分函数参数中的变量和文字/常量
在这种情况下，如何识别是否有变量或字面量传递给函数 f()？如何实现passed_as_constant()检查(见下面代码)？ sub f { my $refStr=\$_[0]; ret
Python win32com 常量
我目前想知道如何在 python 中列出 win32com 中的常量，例如使用 excel win32com.client.Dispatch('Excel.Application') 有没有办法使用
IF 内的 PHP 常量
这个问题在这里已经有了答案: PHP | define() vs. const (9 个回答) 关闭8年前。在 PHP 中遇到常量问题想知道是否有人可以解释: 这行得通 const _ROOT =
rust - 常量、常规不可变变量和静态变量之间有什么区别？
我正在学习 Rust，到目前为止，似乎有 3 种声明变量的方法: const A: u8 = 42; static A: u8 = 42; let A: u8 = 42; 我知道你不能有一个可变的 c
d - 表达式是否忽略不可变/常量？
我正在使用函数模板 void _createAttr(T)(args..., in T[]) 并使用测试 T 的类型函数中的 static if(is(T == char)) 。当我打电话时， _c
Erlang:在编译时计算数据结构文字(常量)？
这可能是一个天真的问题，我怀疑答案是"is"，但我没有运气在这里和其他地方搜索“erlang编译器优化常量”等术语。无论如何，erlang 编译器是否可以(将)在编译时创建一个常量或文字的数据结构，并
JavaScript， react 常量
我刚遇到这段 Java 脚本代码: const { myKey, uname, issorted, title, hClick, } = this.props; 请告诉我这是什么意
java - 访问扩展类中的属性/常量
我正在努力实现以下目标: 我有一个父类，有一些逻辑。在子类中，我“重新定义”常量/属性。有没有办法让子属性可以通过父类中定义的方法访问？或者更具体地说 - 有什么方法可以强制“out”方法在下面的示例
Java外部类访问内部类接口(interface)常量
如果这是个愚蠢的问题，请原谅。我有一个带有内部类接口(interface)的“fragment ”外部类。该接口(interface)仅由另一个 Activity 类使用“implements Ou
python - 当字典被覆盖时如何修复类变量/常量？
我是 python 新手，尝试使用默认值并为类实例自定义它们。因此，在这个示例中，我定义了一个 DEFAULT_STRING 和一个 DEFAULT_SETTINGS 变量，可以使用 customi
C# XML 常量
在 integer.xml 中，其形式为 0x001 0x002 是代码和 xml 文件都需要的存储常量。 C# 识别 Droid.Resource.Integer.foo，但它有一些大的
跨平台访问 C 常量
是否有跨平台(即跨 Linux、BSD 和 OS X，最好是所有 POSIX)我可以纯粹基于字符串以编程方式访问诸如 O_RDWR 之类的常量>“O_RDWR”？我正在编写一些(非 C)代码，这些代

首页

博学

6Ren·AI

商城

assembly - 常量乘法 - imul 或 shl-add-combination

和往常一样，没有一个 asm 片段可以说是适用于所有情况的最佳选择。这取决于周围代码中的瓶颈是什么:延迟、吞吐量或 uops。