gpt4 book ai didi

assembly - x86 NOP和FNOP指令之间有什么区别?

转载 作者:行者123 更新时间:2023-12-04 05:12:25 25 4
gpt4 key购买 nike

我在阅读Intel instruction manual时,发现在主CPU上没有执行任何操作的“ NOP”指令,在FPU上没有执行任何操作的“ FNOP”指令。为什么有两个单独的指令不执行任何操作?

我看到的唯一不同是它们引发了不同的异常,因此您可能会从FNOP监视异常,以检测是否有可用的FPU。但是是否没有其他机制(例如CPUID)来检测到这一点?有两个单独的NOP指令有什么实际原因?

最佳答案

扩展Raymond Chen和Hans Passant的评论,有两个单独的说明以及为什么它们效果不一样的历史原因。

NOPFNOP这两个指令最初都不设计为显式的无操作指令。 NOP指令实际上只是指令XCHG AX,AX的别名。 (或在32位模式下XCHG EAX, EAX。)在早期的Intel处理器上,它实际上什么也不做。尽管它没有外部可见的效果,但在内部却像XCHG指令一样执行,需要执行许多周期。 '486是第一个专门对其进行处理的Intel CPU,它可以在1个周期内执行NOP,而执行任何其他寄存器到寄存器XCHG指令则需要3个周期。

在现代Intel处理器中,特别对待XCHG AX,AX指令变得非常重要。如果它实际上仍在与自己交换同一寄存器,则如果附近的指令也使用AX寄存器,则可能导致流水线停顿。通过对CPU进行特殊处理,CPU最终不会认为NOP需要等待设置AX的前一条指令,或者后一条指令需要等待NOP

这提出了一个事实,尽管XCHG AX,AX是唯一一个单字节的字节(作为exchange-register-with-accumulator single byte XCHG encodings的特例),但是有很多不同的指令什么也不做。这些指令通常用作连续NOP指令的单指令替代,例如出于性能原因对齐循环的开始时。例如,如果您想要6字节的NOP,则可以使用LEA EAX,[EAX + 00000000]。英特尔最终添加了一条明确的多字节NOP指令。 (嗯,自奔腾Pro以来就没有增加正式的说明了。)但是,只有特殊的单字节形式被特别对待。如果附近的指令使用相同的寄存器,则多字节NOP将产生停顿。

当AMD向其CPU添加64位支持时,他们走得更远。在64位模式下,NOP不再等效于XCHG EAX,EAX。英特尔指令集的问题之一是,有很多指令仅修改寄存器的一部分。例如,MOV BX,AX仅修改EBX的低16位,而未修改高16位。这些部分修改使CPU很难避免停顿,因此AMD决定在64位模式下使用32位指令时避免这种情况。每当将32位运算的结果存储在(64位)寄存器the value is zero extended to 64-bits so that entire register is modified中。这意味着XCHG EAX,EAX不再是NOP,因为它清除了EAX的高32位(因此,如果您明确编写XCHG EAX,EAX,则它不能汇编为0x90,而必须使用87 C0编码)。在64位模式下,NOP现在是显式NOP,没有其他解释。



至于FNOP指令,在最初的8087上,还不清楚FPU如何处理该指令,但是我很确定它也没有被当作显式的空操作来处理。至少有一本旧的英特尔手册,ASM86 Language Rerefence Manual确实将某件事做为无效(“将堆栈顶部存储到堆栈顶部”)。从它在操作码映射中的位置看,它似乎可能是FST STFLD ST的别名,这两者都会将堆栈的顶部复制到堆栈的顶部。但是,它确实得到了一些特殊的处理,它平均执行13个周期,而不是分别使用堆栈来堆叠FSTFLD指令的平均18或20个周期。如果将其视为无操作指令,我希望它会更快,因为有8087条指令可以在一半时间内执行。

更重要的是,由于以前在英特尔处理器上实现FPU指令的方式,FNOP指令的行为与NOP不同。 CPU本身不支持浮点算术,而是将这些职责转移到了可选的浮点协处理器上,最初是8087。协处理器的优点之一是它与CPU并行执行指令。但是,这意味着CPU有时需要等待FPU完成操作。 CPU自动等待它完成前一条指令的执行,然后再给出另一条指令,但是程序需要显式等待(使用WAIT指令),然后才能读取协处理器写入内存的结果。

因为协处理器是并行工作的,所以这也意味着,如果FPU指令生成浮点异常,则在检测到该浮点异常时,CPU已经可以继续执行下一条指令。通常,当一条指令在CPU上产生异常时,将在仍在执行该指令的同时对其进行处理,但是当FPU指令产生异常时,CPU已通过将其移交给FPU来完成了该指令的执行。与其中断CPU并异步传递浮点异常,不如在CPU等待协处理器时(显式或隐式)通知CPU。

在现代处理器中,FPU不再是协处理器,它是CPU不可或缺的一部分。这意味着程序不再需要等待FPU将值写入内存。但是,FPU异常的处理方式没有改变。 (事实证明,立即交付异常很难在现代CPU上实现,因此它们利用了不必要的一种情况。)因此,如果先前的FPU指令生成了未交付的浮点异常,则NOP保留未传递的异常,而FNOP因为它是FPU指令,它将执行隐式的“等待”,从而导致传递浮点异常。

此示例演示了区别:

FLD1       ; push 1.0 onto the FPU stack
FLDZ ; push 0.0
FDIV ; divide 1.0 by 0.0
NOP ; does nothing
NOP ; does nothing
FNOP ; signals a FP zero-divide exception and then does nothing

关于assembly - x86 NOP和FNOP指令之间有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25008772/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com