performance - 在 x86 汇编中，对 imul 使用两个单独的寄存器是否更好？-6ren

performance - 在 x86 汇编中，对 imul 使用两个单独的寄存器是否更好？

转载作者：行者123 更新时间：2023-12-04 02:51:43

24

4

我想知道，主要是出于好奇，对于一个操作使用同一个寄存器是否比使用两个更好。考虑到性能和/或其他问题，什么会更好？

mov %rbx, %rcx
imul %rcx, %rcx

或者

mov %rbx, %rcx
imul %rbx, %rcx

任何有关如何对此进行基准测试的提示，或者我可以阅读有关此类事情的资源，都将不胜感激，因为我是组装新手。

最佳答案

resources where I could read about this type of thing

见 Agner Fog's microarch pdf ，以及他的优化 assembly 指南。还有其他链接在 x86标签 wiki(例如 Intel 的优化手册)。

您没有提到的有趣选项是:

mov   %rbx, %rcx
imul  %rbx, %rbx     # doesn'y have to wait for mov to execute
# old value of %rbx is still available in %rcx

如果 imul处于关键路径上，并且 mov具有非零延迟(如 AMD CPU 和 IvyBridge 之前的 Intel)，这可能更好。 imul的结果将提前一个周期准备好，因为不依赖于 mov 的结果.

但是，如果旧值在关键路径上而平方值不在关键路径上，则情况更糟，因为它添加了 mov到关键路径。

当然，这也意味着您必须跟踪这样一个事实，即您的旧变量现在位于不同的寄存器中，并且旧寄存器具有平方值。如果这是循环中的问题，请展开它，这样您就可以得到循环顶部所期望的结果。如果您希望这很容易，您可以使用编译器而不是手动优化 asm。

但是，Intel P6 系列 CPU(PPro/PII 到 Nehalem)具有 有限的寄存器读取端口 ，因此最好选择读取您刚刚编写的寄存器。如果 %rbx没有在最后几个周期写入，当 mov 时，必须从永久寄存器文件中读取它。和 imul uops 经历重命名和发布阶段(RAT)。

如果他们不作为同一组 4 人的一部分发行，那么他们每个人都需要阅读 %rbx分别地。由于 Core2/Nehalem 中的寄存器文件只有 3 个读取端口，问题组(四重奏，如 Agner Fog 所称的那样)会停止，直到从寄存器文件中读取所有最近未写入的输入寄存器值(每个周期 3 个，或Core2 上的 2 不是 3 个寄存器中的任何一个是寻址模式下的索引寄存器)。

有关完整的详细信息，请参阅 Agner Fog's microarch pdf第 8.8 节。 Core2 部分指回 PPro 部分。 PPro 有一个 3 宽的管道，所以在该部分 Agner 谈论的是三重奏，而不是四重奏。

如 mov和 imul一起发布，他们都读了 %rbx .在 Core2/Nehalem 上发生这种情况的几率为四分之三。

对于 Intel P6 系列 CPU，仅在您提到的第一个序列之间进行选择比第二个具有明显(但通常很小)的优势。其他 CPU 没有区别，AFAIK，所以选择是显而易见的。

mov   %rbx, %rcx
imul  %rcx, %rcx     # uses only the recently-written rcx; can't contribute to register-read stalls

两全其美:

mov   %rbx, %rcx
imul  %rbx, %rcx     # can't execute until after the mov, but still reads a potentially-old register

如果您要依赖最近写入的寄存器，则最好只使用最近写入的寄存器。

Intel Sandybridge 系列使用物理寄存器文件(如 AMD Bulldozer 系列)，并且没有寄存器读取停顿。

Ivybridge(第二代 Sandybridge)和更高版本也处理 mov reg,reg在寄存器重命名时，零延迟且没有执行单元。这意味着您是否模仿都无关紧要 rbx或 rcx至于关键路径长度。

但是，AMD Bulldozer 系列只能在重命名阶段处理 xmm 寄存器移动；整数寄存器移动仍然有 1c 延迟。

可能仍然值得关注 mov 哪个依赖链如果延迟是循环中每次迭代的周期的限制因素，则是其中的一部分。

how to benchmark this

我认为您可以使用 imul %rbx, %rcx 组合一个在 Core2 上具有寄存器读取停顿的微基准测试。，但不是 imul %rcx, %rcx .但是，这需要反复试验才能获得 mov和 imul在不同的组中发布，除非您感觉非常有创意，否则可能会出现一些看起来很假的周围代码，这些代码仅存在于读取大量寄存器中。 (例如 lea (%rsi, %rdi, 1), %eax ，甚至 add (%rsi, %rdi, 1), %eax (它必须读取所有三个寄存器，并在 core2/nehalem 上进行微保险，因此它在问题组中只需要 1 个 uop 插槽。(它 doesn't micro-fuse on SnB-family ))。

关于performance - 在 x86 汇编中，对 imul 使用两个单独的寄存器是否更好？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37915560/

24

4

0

文章推荐： python-2.7 - 如何使用 Google Sheets API V4 导入 CSV 文件

文章推荐： asp.net - 从 Gridview 中下拉列表的行中获取数据

文章推荐： asynchronous - 如何延迟AngularJS App初始化？

汇编 - 在图形模式下打印一个字符
我试图在图形模式下打印一个字符。通常当我打印我正在做的一个字符时: mov ah,14 ; ah=14 mov al,'x' int 10h ; print the character 这
汇编 - 试图将字节移动到内存不起作用
我试图通过更改其中的一个字节来修改存储在内存中的字符串。我为此使用了 movb，但由于某种原因，给定内存位置的字节没有改变。在 gdb 调试器上: 14 movb %al, (%r10) # nex
汇编-x86调用指令和内存地址？
我一直在阅读一些汇编代码，并且开始发现调用指令实际上是与程序计数器相关的。但是，每当我使用 Visual Studio 或 Windbg 进行调试时，它总是显示 call 0xFFFFFF ...这
汇编、栈上局部变量的算术运算
我最近一直在使用 Visual C++ 中的内联汇编，我想知道是否可以直接向堆栈上的局部变量添加值，例如: push 5 add [esp], 7 这样做可以吗？我问这个问题是因为我在执行此操作时随机
汇编-进位标志VS溢出标志
我有下一个代码: mov al, -5 add al, 132 add al, 1 据我检查，溢出标志和进位标志将在第一个操作中设置，而在第二个操作中，仅设置溢出。但我不明白为什么: 在无符号数中，
汇编，将单个字节从寄存器写入内存会覆盖其他字节
在 64 位 x86 汇编 nasm 中，如何将单个字节从寄存器移动到 .data 节中定义的内存位置？我知道这有效 global _main section .data quotient db 0
汇编、打印ascii码
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字，但是当我尝试打印它时，它打印的是 ascii 字符而不是 ascii 数字，所以我决定编写一个程序将 ascii char 转换为 ascii
汇编——机器码中的跳转指令
为什么第 1B 行的跳转指令(例如)变成了 EBBD？我知道“jmp”= EB但是BD是怎么计算的呢？最佳答案短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。例如，第一个 JMP
汇编:add指令和操作符add的区别
以下两者有什么区别: mov eax, [eax+4] 和 add eax, 4 mov eax, [eax] 如果不是，那么汇编器是否会选择哪个来进行某种优化？最佳答案这
汇编/反汇编指令操作数
看《The Shellcoder's Handbook》中的一些汇编和反汇编代码，发现一条指令的序列操作数是不一样的。例如，在 assembly 上: mov ebx,0 并且，在反汇编时: mov
汇编，检测溢出寄存器
我有这个非常简单的汇编代码: start: add ax, 100 ; if ax overflow add to bx 1 jmp start 但我不知道如何检测 ax 寄存器溢出，有人可以帮
汇编，将单个字节从寄存器写入内存会覆盖其他字节
在 64 位 x86 汇编 nasm 中，如何将单个字节从寄存器移动到 .data 节中定义的内存位置？我知道这有效 global _main section .data quotient db 0
汇编、打印ascii码
我的汇编代码有问题。我想打印存储在寄存器 cx 中的数字，但是当我尝试打印它时，它打印的是 ascii 字符而不是 ascii 数字，所以我决定编写一个程序将 ascii char 转换为 ascii
汇编 << 运算符
我正在学习一些关于操作系统开发的教程，我发现了一篇关于多重引导 header 。这些是您必须定义的一些“神奇”值才能使用GRUB2。这些是命令: # Declare constants used f
汇编——机器码中的跳转指令
为什么第 1B 行的跳转指令(例如)变成了 EBBD？我知道“jmp”= EB但是BD是怎么计算的呢？最佳答案短跳转使用一个带符号的偏移量添加到 JMP 之后的指令地址。例如，第一个 JMP
从内存地址复制字辅助(汇编)
我正在尝试从内存中复制一些单词并使用汇编将其保存到另一个内存地址。我正在尝试为其编写代码，但我不确定其中的某些部分。我将简要描述我想要做什么。源地址、目标地址和要复制的字数是函数的输入参数。最佳答
汇编 MOV 指令操作数
当我们想要像这样创建一个初始化变量时: name db 'zara ali' 我们创建了一个字节大小变量，但我们在其中存储了一个字符串这怎么可能？？当我们使用这条指令时: MOV ecx, nam
汇编:16 位除法
我还是汇编的新手，我还不知道汇编中的许多命令代码。我想在 16 位寄存器中进行除法。我想打印它的内容。我知道我需要将寄存器的内容转换为 ASCII 进行打印，但同样，我的问题是除法。请帮我。比如cx
assembly - 汇编/机器代码中相等的分支
使用有什么区别: c.eq.s $1, $2 bc1t L2 并使用: beq $1, $2, L2 如果他们做同样的事情，为什么有两种分支方式？如果它们不同，那么它们各自的好处是什么
c - 汇编:在调用函数之前加载有效地址的目的？
源代码: int main() { int i; for(i=0, i : push rbp 2. 0x000055555555463b :

首页

博学

6Ren·AI

商城

performance - 在 x86 汇编中，对 imul 使用两个单独的寄存器是否更好？