performance - 从堆栈中弹出不需要的值，或者在 386+ CPU 上向 SP 添加一个立即常量是否更快？-6ren

performance - 从堆栈中弹出不需要的值，或者在 386+ CPU 上向 SP 添加一个立即常量是否更快？

转载作者：行者123 更新时间：2023-12-04 16:06:31

24

4

我的代码目标是 386+(通常是 DOSBox，偶尔是 Pentium MMX)CPU，但我只使用 8086 特性集来实现兼容性。我的代码是为非多任务环境(MS-DOS 或 DOSBox)编写的。

在嵌套循环中，我经常发现自己将 CX 重新用于更深层次的循环计数器。我将它PUSH 放在嵌套循环的顶部，然后在执行LOOP 之前将它POP。

有时 CX 以外的条件达到 0 会终止这些内部循环。然后我留下了不必要的循环计数器，有时还有更多的变量，坐在我需要清理的堆栈上。

是直接给SP加一个常量更快，还是POP这些不需要的值？

我知道最快的方法是将 CX 存储在循环顶部的备用寄存器中，然后在 LOOP 执行之前恢复它，前述堆栈完全，但我经常没有备用寄存器。

这是一段代码，我在其中添加了一个常量到 SP 以避免一些 POP 指令:

FIND_ENTRY PROC

;SEARCHES A SINGLE SECTOR OF A DIRECTORY LOADED INTO secBuff FOR A 
;SPECIFIED FILE/SUB DIRECTORY ENTRY

;IF FOUND, RETURNS THE FILE/SUB DIRECTORY'S CLUSTER NUMBER IN BX
;IF NOT FOUND, RETURNS 0 IN BX

;ALTERS BX

;EXPECTS A FILE NAME STRING INDEX NUMBER IN BP
;EXPECTS A SECTOR OF A DIRECTORY (ROOT, OR SUB) TO BE LOADED INTO secBuff
;EXPECTS DS TO BE LOADED WITH varData


    push ax
    push cx
    push es
    push si
    push di




    lea si, fileName             ;si -> file name strings 
    mov ax, 11d                  ;ax -> file name length in bytes/characters
    mul bp                       ;ax -> offset to file name string
    add si, ax                   ;ds:si -> desired file name as source input
                                 ;for CMPS
    mov di, ds
    mov es, di
    lea di, secBuff              ;es:di -> first entry in ds:secBuff as 
                                 ;destination input for CMPS


    mov cx, 16d                  ;outer loop cntr -> num entries in a sector
ENTRY_SEARCH:                    
    push cx                      ;store outer loop cntr
    push si                      ;store start of the file name
    push di                      ;store start of the entry


    mov cx, 11d                  ;inner loop cntr -> length of file name
    repe cmpsb                   ;Do the strings match?
    jne NOT_ENTRY                ;If not, test next entry.

    pop di                       ;di -> start of the entry
    mov bx, WORD PTR [di+26]     ;bx -> entry's cluster number

    add sp, 4                    ;discard unneeded stack elements
    pop di
    pop si
    pop es
    pop cx
    pop ax
    ret

NOT_ENTRY:                       
    pop di                       ;di -> start of the entry
    add di, 32d                  ;di -> start of next entry
    pop si                       ;si -> start of file name
    pop cx                       ;restore the outer loop cntr
    loop ENTRY_SEARCH            ;loop till we've either found a match, or
                                 ;have tested every entry in the sector 
                                 ;without finding a match.

    xor bx, bx                   ;if we're here no match was found. 
                                 ;return 0.




    pop di
    pop si
    pop es
    pop cx
    pop ax
    ret


FIND_ENTRY ENDP

最佳答案

如果您想编写高效的代码，与reducing the amount of saving/restoring you need to do 相比，pop 与add 是一个非常小的问题。，并优化其他一切(见下文)。

如果需要超过 1 个pop，请始终使用add sp, imm。或者 sub sp, -128 仍然使用 imm8 来节省代码大小。或者某些 CPU 可能更喜欢 lea 而不是 add/sub。 (例如，gcc 尽可能使用 LEA 和 -mtune=atom)。当然，这需要 16 位模式的地址大小前缀，因为 [sp+2] 不是有效的寻址模式。

除此之外，没有一个答案同时适用于实际的 386 和像 Haswell 或 Skylake 这样的现代 x86!它们之间有很多的微架构变化CPU。现代 CPU 将 x86 指令解码为内部类似 RISC 的微指令。有一段时间，使用简单的 x86 指令很重要，但现在现代 CPU 可以在一条指令中处理大量工作，因此更复杂的 x86 指令(如 push 或 add 带有内存源操作数)是单 uop 指令。

现代 CPU(从 Pentium-M 开始)有一个堆栈引擎，不需要单独的 uop 来实际更新乱序内核中的 RSP/ESP/SP。当您使用非堆栈指令(除 push/pop/call/ret 之外的任何指令)读/写 RSP 时，Intel 的实现需要一个堆栈同步 uop，这就是 pop 有用的原因，尤其是如果你在推送或调用后执行此操作。

当需要单个 8 字节偏移量时，clang 使用 push/pop 对齐 x86-64 代码中的堆栈。 Why does this function push RAX to the stack as the first operation? .

但是如果你关心性能， loop is slow and should be avoided in the first place ，更不用说循环计数器的 push/pop 了! 对内/外循环使用不同的 regs。

基本上，就优化而言，您在错误的道路上走得太远了，所以真正的答案只是指向您 http://agner.org/optimize/ ，以及 the x86 tag wiki 中的其他性能链接.由于对现代 CPU 的所有部分寄存器错误依赖性，16 位代码很难获得良好的性能，但对代码大小有一些影响，您可以在必要时使用 32 位操作数大小来打破这些。 (例如对于 xor ebx,ebx)

当然，如果您针对 DOSBOX 进行优化，它就不是真正的 CPU 而是模拟的。所以 loop 可能很快!如果有人分析过或编写过 DOSBOX 的 CPU 模拟器的优化指南，请 IDK。但我建议学习在真正的现代硬件上什么是快速的；那更有趣。

关于performance - 从堆栈中弹出不需要的值，或者在 386+ CPU 上向 SP 添加一个立即常量是否更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48512040/

24

4

0

文章推荐： python - psycopg2 只显示 Postgresql 数据库的第一行

文章推荐： apache-spark - 附加唯一 ID 的 Spark 数据集

文章推荐： c# - 使用 Sagemaker 获取 Amazon.RegionEndpoint 的冲突错误

Web 堆栈 - 常见 Web 堆栈/环境的列表
出于好奇 - 我知道有 LAMP - Linux、Apache、MySQL 和 PHP。但是还有哪些其他 Web 堆栈替代方案的缩写呢？像 LAMR - Linux、Apache、MySQL Ruby
JavaScript 堆栈，LIFO 堆栈 : value not as expected
我有以下代码。 var stackMapIn = []; var stackMapOut = []; var stackBack = []; stackMapOut.push("m1"); $scop
amazon-web-services - 已删除 Cloudformation 堆栈，由于资源已存在，现在无法重新创建新的 Cloudformation 堆栈
我遇到了导致我的堆栈无法恢复的情况，我别无选择，只能将其删除。使用完全相同的模板，我继续创建了另一个同名的堆栈。 The following resource(s) failed to create:
ruby-on-rails - 与 Rails(堆栈)目录相比，MEAN(堆栈)Node.js 应用程序目录是什么样的？
这是我第一次查看 Node 堆栈，自从我学习使用 Ruby on Rails 进行 Web 开发以来，我对一些基本的东西有点困惑。我了解 Rails 目录是什么样的。 demo/ ..../app .
C语言使用深度优先搜索算法解决迷宫问题(堆栈)
本文实例讲述了C语言使用深度优先搜索算法解决迷宫问题。分享给大家供大家参考，具体如下：深度优先搜索伪代码（Pseudocode）如下： ?
项目特定位置的 Haskell 堆栈
我正在按照指南 here ，它告诉我: The stack setup will download the compiler if necessary in an isolatedlocation (
Haskell 堆栈，如何在全局范围内恢复在多个包中发现的模棱两可的模块名称
同时 trying to debug a different question ，我安装了一个似乎与我安装的其他一些软件包冲突的软件包。我跑了 $ stack install regex-pcre-
java - 我的java方法代码有什么问题？ - 堆栈
我花了几个小时创建了一个方法，该方法将从堆栈 s1 中获取 null 元素，并将它们放入 s2 中。然后该类应该打印堆栈。方法如下 import net.datastructures.ArraySta
java 堆栈 NullPointerException
我有一个类Floor，它有一个Stack block ，但我不知道如何初始化它。我曾尝试过这样的: public class Floor { private Stack stack;
具有元素限制的 Java 堆栈
我知道这个问题已经问过很多次了，但搜索一个小时后我仍然遇到问题。我想使用一个 lifo 堆栈，它可以存储最大数量的元素。达到最大数量后，首先删除该元素并将其替换为新元素，这样在第一次弹出时我可以获取
java - 谁能告诉我我做错了什么？ - 堆栈
我需要编写一个方法，压缩以执行以下操作；目标compress方法是从栈s1中移除所有null元素。剩余(非空)元素应按其初始顺序保留在 s1 上。辅助堆栈 s2 应用作s1 中元素的临时存储。在该方
JavaScript 堆栈、队列和事件循环？
我正在尝试验证以下代码发生的顺序。 function square(n) { return n * n; } setTimeout(function(){ console.log("H
c - 动态字符数组 - 堆栈
我需要一个字符数组，其中包含基于特定文件夹中文件数量的动态数量的字符数组。我能够通过初始化 char (*FullPathNames)[MAX_FILENAME_AND_PATHNAME_LENGTH
c++ - 堆栈/帧指针作为外部变量
我正在编写一些日志逻辑并想要进行一些缩进。了解是否存在任何函数调用或某个函数是否已完成的最简单方法是查看堆栈/帧的当前地址。让我们假设堆栈颠倒增长。然后，如果 log() 调用中的堆栈地址小于前一次调
c - 堆栈、数据和指令段在哪里实现？
所以内存分段在x86-64中被放弃了，但是当我们使用汇编时，我们可以在代码中指定.code和.data段/段，并且还有堆栈指针寄存器。还有堆栈段、数据段和代码段寄存器。代码/数据/堆栈的划分是如何
c# - 堆栈 - 值类型的值存储在哪里？
void main() { int x = 5; // stack-allocated Console.WriteLine(x); } 我知道 x 是堆栈分配的。但是关于 x 的堆栈中
Java 程序输出(堆栈)
这是我关于 SO 的第一个问题。这可能是一个愚蠢的问题，但到目前为止我还没弄明白。考虑下面的程序 Reader.java: public class Reader { public
Java 堆栈/嵌套计数
java中有没有一种快速的方法来获取嵌套/递归级别？我正在编写一个函数来创建组及其成员的列表。成员也可以是团体。我们最终可能会得到一组循环的组/成员。我想在某个任意级别停止。我知道我可以将变量保
c++ - 堆栈/堆分配数组的销毁顺序
考虑以下代码: struct A{...}; A a[100]; A* pa = new A[100]; delete[] pa; a/pa 元素的销毁顺序是由标准定义的还是实现定义的(对于第二种情况
具有多个值的 C++ 堆栈
我在下面有一些代码。此代码是一个基本的压入/弹出堆栈类，我将其创建为模板以允许某人压入/弹出堆栈。我有一个家庭作业，我现在要做的是创建一个具有多个值的堆栈。所以我希望能够创建一个基本上可以发送三个整

首页

博学

6Ren·AI

商城

performance - 从堆栈中弹出不需要的值，或者在 386+ CPU 上向 SP 添加一个立即常量是否更快？