- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的代码目标是 386+(通常是 DOSBox,偶尔是 Pentium MMX)CPU,但我只使用 8086 特性集来实现兼容性。我的代码是为非多任务环境(MS-DOS 或 DOSBox)编写的。
在嵌套循环中,我经常发现自己将 CX
重新用于更深层次的循环计数器。我将它PUSH
放在嵌套循环的顶部,然后在执行LOOP
之前将它POP
。
有时 CX
以外的条件达到 0 会终止这些内部循环。然后我留下了不必要的循环计数器,有时还有更多的变量,坐在我需要清理的堆栈上。
是直接给SP
加一个常量更快,还是POP
这些不需要的值?
我知道最快的方法是将 CX
存储在循环顶部的备用寄存器中,然后在 LOOP
执行之前恢复它,前述堆栈完全,但我经常没有备用寄存器。
这是一段代码,我在其中添加了一个常量到 SP
以避免一些 POP
指令:
FIND_ENTRY PROC
;SEARCHES A SINGLE SECTOR OF A DIRECTORY LOADED INTO secBuff FOR A
;SPECIFIED FILE/SUB DIRECTORY ENTRY
;IF FOUND, RETURNS THE FILE/SUB DIRECTORY'S CLUSTER NUMBER IN BX
;IF NOT FOUND, RETURNS 0 IN BX
;ALTERS BX
;EXPECTS A FILE NAME STRING INDEX NUMBER IN BP
;EXPECTS A SECTOR OF A DIRECTORY (ROOT, OR SUB) TO BE LOADED INTO secBuff
;EXPECTS DS TO BE LOADED WITH varData
push ax
push cx
push es
push si
push di
lea si, fileName ;si -> file name strings
mov ax, 11d ;ax -> file name length in bytes/characters
mul bp ;ax -> offset to file name string
add si, ax ;ds:si -> desired file name as source input
;for CMPS
mov di, ds
mov es, di
lea di, secBuff ;es:di -> first entry in ds:secBuff as
;destination input for CMPS
mov cx, 16d ;outer loop cntr -> num entries in a sector
ENTRY_SEARCH:
push cx ;store outer loop cntr
push si ;store start of the file name
push di ;store start of the entry
mov cx, 11d ;inner loop cntr -> length of file name
repe cmpsb ;Do the strings match?
jne NOT_ENTRY ;If not, test next entry.
pop di ;di -> start of the entry
mov bx, WORD PTR [di+26] ;bx -> entry's cluster number
add sp, 4 ;discard unneeded stack elements
pop di
pop si
pop es
pop cx
pop ax
ret
NOT_ENTRY:
pop di ;di -> start of the entry
add di, 32d ;di -> start of next entry
pop si ;si -> start of file name
pop cx ;restore the outer loop cntr
loop ENTRY_SEARCH ;loop till we've either found a match, or
;have tested every entry in the sector
;without finding a match.
xor bx, bx ;if we're here no match was found.
;return 0.
pop di
pop si
pop es
pop cx
pop ax
ret
FIND_ENTRY ENDP
最佳答案
如果您想编写高效的代码,与reducing the amount of saving/restoring you need to do 相比,pop 与add 是一个非常小的问题。 ,并优化其他一切(见下文)。
如果需要超过 1 个pop
,请始终使用add sp, imm
。或者 sub sp, -128
仍然使用 imm8 来节省代码大小。或者某些 CPU 可能更喜欢 lea
而不是 add/sub。 (例如,gcc 尽可能使用 LEA 和 -mtune=atom
)。当然,这需要 16 位模式的地址大小前缀,因为 [sp+2]
不是有效的寻址模式。
除此之外,没有一个答案同时适用于实际的 386 和像 Haswell 或 Skylake 这样的现代 x86!它们之间有很多的微架构变化CPU。现代 CPU 将 x86 指令解码为内部类似 RISC 的微指令。有一段时间,使用简单的 x86 指令很重要,但现在现代 CPU 可以在一条指令中处理大量工作,因此更复杂的 x86 指令(如 push
或 add
带有内存源操作数)是单 uop 指令。
现代 CPU(从 Pentium-M 开始)有一个堆栈引擎,不需要单独的 uop 来实际更新乱序内核中的 RSP/ESP/SP。当您使用非堆栈指令(除 push/pop/call/ret 之外的任何指令)读/写 RSP 时,Intel 的实现需要一个堆栈同步 uop,这就是 pop
有用的原因,尤其是如果你在推送或调用后执行此操作。
当需要单个 8 字节偏移量时,clang 使用 push
/pop
对齐 x86-64 代码中的堆栈。 Why does this function push RAX to the stack as the first operation? .
但是如果你关心性能, loop
is slow and should be avoided in the first place ,更不用说循环计数器的 push/pop 了! 对内/外循环使用不同的 regs。
基本上,就优化而言,您在错误的道路上走得太远了,所以真正的答案只是指向您 http://agner.org/optimize/ ,以及 the x86 tag wiki 中的其他性能链接.由于对现代 CPU 的所有部分寄存器错误依赖性,16 位代码很难获得良好的性能,但对代码大小有一些影响,您可以在必要时使用 32 位操作数大小来打破这些。 (例如对于 xor ebx,ebx
)
当然,如果您针对 DOSBOX 进行优化,它就不是真正的 CPU 而是模拟的。所以 loop
可能很快!如果有人分析过或编写过 DOSBOX 的 CPU 模拟器的优化指南,请 IDK。但我建议学习在真正的现代硬件上什么是快速的;那更有趣。
关于performance - 从堆栈中弹出不需要的值,或者在 386+ CPU 上向 SP 添加一个立即常量是否更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48512040/
出于好奇 - 我知道有 LAMP - Linux、Apache、MySQL 和 PHP。但是还有哪些其他 Web 堆栈替代方案的缩写呢?像 LAMR - Linux、Apache、MySQL Ruby
我有以下代码。 var stackMapIn = []; var stackMapOut = []; var stackBack = []; stackMapOut.push("m1"); $scop
我遇到了导致我的堆栈无法恢复的情况,我别无选择,只能将其删除。使用完全相同的模板,我继续创建了另一个同名的堆栈。 The following resource(s) failed to create:
这是我第一次查看 Node 堆栈,自从我学习使用 Ruby on Rails 进行 Web 开发以来,我对一些基本的东西有点困惑。我了解 Rails 目录是什么样的。 demo/ ..../app .
本文实例讲述了C语言使用深度优先搜索算法解决迷宫问题。分享给大家供大家参考,具体如下: 深度优先搜索 伪代码 (Pseudocode)如下: ?
我正在按照指南 here ,它告诉我: The stack setup will download the compiler if necessary in an isolatedlocation (
同时 trying to debug a different question ,我安装了一个似乎与我安装的其他一些软件包冲突的软件包。 我跑了 $ stack install regex-pcre-
我花了几个小时创建了一个方法,该方法将从堆栈 s1 中获取 null 元素,并将它们放入 s2 中。然后该类应该打印堆栈。方法如下 import net.datastructures.ArraySta
我有一个类Floor,它有一个Stack block ,但我不知道如何初始化它。我曾尝试过这样的: public class Floor { private Stack stack;
我知道这个问题已经问过很多次了,但搜索一个小时后我仍然遇到问题。 我想使用一个 lifo 堆栈,它可以存储最大数量的元素。达到最大数量后,首先删除该元素并将其替换为新元素,这样在第一次弹出时我可以获取
我需要编写一个方法,压缩以执行以下操作; 目标compress方法是从栈s1中移除所有null元素。剩余(非空)元素应按其初始顺序保留在 s1 上。辅助堆栈 s2 应用作s1 中元素的临时存储。在该方
我正在尝试验证以下代码发生的顺序。 function square(n) { return n * n; } setTimeout(function(){ console.log("H
我需要一个字符数组,其中包含基于特定文件夹中文件数量的动态数量的字符数组。我能够通过初始化 char (*FullPathNames)[MAX_FILENAME_AND_PATHNAME_LENGTH
我正在编写一些日志逻辑并想要进行一些缩进。了解是否存在任何函数调用或某个函数是否已完成的最简单方法是查看堆栈/帧的当前地址。让我们假设堆栈颠倒增长。然后,如果 log() 调用中的堆栈地址小于前一次调
所以内存分段在x86-64中被放弃了,但是当我们使用汇编时,我们可以在代码中指定.code和.data段/段,并且还有堆栈指针寄存器。 还有堆栈段、数据段和代码段寄存器。 代码/数据/堆栈的划分是如何
void main() { int x = 5; // stack-allocated Console.WriteLine(x); } 我知道 x 是堆栈分配的。但是关于 x 的堆栈中
这是我关于 SO 的第一个问题。这可能是一个愚蠢的问题,但到目前为止我还没弄明白。 考虑下面的程序 Reader.java: public class Reader { public
java中有没有一种快速的方法来获取嵌套/递归级别? 我正在编写一个函数来创建组及其成员的列表。成员也可以是团体。我们最终可能会得到一组循环的组/成员。 我想在某个任意级别停止。 我知道我可以将变量保
考虑以下代码: struct A{...}; A a[100]; A* pa = new A[100]; delete[] pa; a/pa 元素的销毁顺序是由标准定义的还是实现定义的(对于第二种情况
我在下面有一些代码。此代码是一个基本的压入/弹出堆栈类,我将其创建为模板以允许某人压入/弹出堆栈。我有一个家庭作业,我现在要做的是创建一个具有多个值的堆栈。 所以我希望能够创建一个基本上可以发送三个整
我是一名优秀的程序员,十分优秀!