gpt4 book ai didi

performance - 为什么循环指令很慢?英特尔就不能有效地实现它吗?

转载 作者:行者123 更新时间:2023-12-02 20:50:32 25 4
gpt4 key购买 nike

循环 ( Intel ref manual entry )减少 ecx/rcx,and then jumps if non-zero 。虽然速度很慢,但英特尔难道不能以低廉的成本让它变得更快吗? dec/jnz已经macro-fuses into a single uop关于桑迪布里奇家族;唯一的区别是设置标志。

loop关于各种微架构,来自 Agner Fog's instruction tables :

  • K8/K10:7 次操作

  • Bulldozer 系列/Ryzen:1 m-op(与宏融合测试和分支的成本相同,或 jecxz)

  • P4:4 uops(与 jecxz 相同)

  • P6(PII/PIII):8 uops

  • Pentium M、Core2:11 uops

  • Nehalem:6 uops。 (11 表示 loope/loopne )。吞吐量 = 4c ( loop ) 或 7c ( loope/ne )。

  • SnB 系列:7 uops。 (11 表示 loope/loopne )。 吞吐量 = 每 5 个周期一个,这与将循环计数器保留在内存中一样是瓶颈! jecxz仅 2 uop,吞吐量与常规 jcc 相同

  • 西尔弗蒙特:7 uops

  • AMD Jaguar(低功耗):8 uops,5c 吞吐量

  • 通过 Nano3000:2 uops

<小时/>

解码器不能像lea rcx, [rcx-1]一样解码吗/jrcxz ?那将是 3 uop。至少在没有地址大小前缀的情况下是这样,否则它必须使用 ecx并截断RIPEIP如果进行跳跃; 也许控制递减宽度的地址大小的奇怪选择解释了许多微指令?(有趣的事实: rep -string 指令与使用 ecx 和 32 位地址具有相同的行为-尺寸。)

或者更好,只是将其解码为不设置标志的融合十进制分支? dec ecx/jnz SnB 上解码为单个 uop(它确实设置了标志)。

我知道真正的代码不会使用它(因为至少从 P5 或其他东西开始它就很慢),但 AMD 认为让 Bulldozer 变得更快是值得的。可能是因为这很容易。

<小时/>
  • SnB家族的uarch是否容易快速loop如果是这样,他们为什么不呢?如果不是,为什么这么难?很多解码器晶体管?或者融合 dec&branch uop 中的额外位来记录它没有设置标志?那 7 个 uop 能做什么?这是一个非常简单的指令。

  • 推土机有什么特别之处,快速loop容易/值得吗?或者AMD是否浪费了一堆晶体管来制造loop快速地?如果是这样,想必有人认为这是个好主意。

<小时/>

如果loop速度很快,非常适合 BigInteger arbitrary-precision adc loops, to avoid partial-flag stalls / slowdowns (请参阅我对我的答案的评论),或者您想要循环而不触及标志的任何其他情况。与 dec/jnz 相比,它还具有较小的代码大小优势。 。 (和 dec/jnz 仅 SnB 系列上的宏熔断器)。

在现代 CPU 上 dec/jnz在 ADC 循环中正常,loop对于 ADCX/ADOX 循环来说仍然很好(以保留 OF)。

如果loop速度很快,编译器已经将其用作 CPU 上代码大小和速度的窥孔优化,而无需宏融合。

<小时/>

这并不能阻止我对使用 loop 的糟糕 16 位代码的所有问题感到恼火。对于每个循环,即使它们还需要循环内的另一个计数器。但至少不会那么那么糟糕。

最佳答案

1988年,IBM院士Glenn Henry他刚刚加入戴尔,当时该公司有几百名员工,在上任的第一个月,他就 386 内部结构进行了一次技术演讲。我们一群 BIOS 程序员一直想知道为什么 LOOP 比 DEC/JNZ 慢,所以在问答部分有人提出了这个问题。

他的回答很有道理。它与分页有关。

LOOP由两部分组成:递减CX,如果CX不为零则跳转。第一部分不能导致处理器异常,而跳转部分可以。其一,您可能会跳转(或失败)到段边界之外的地址,从而导致 SEGFAULT。对于两个,您可以跳转到已换出的页面。

SEGFAULT 通常意味着进程的结束,但页面错误则不同。当发生页面错误时,处理器会抛出异常,操作系统会进行内务处理,将页面从磁盘交换到 RAM 中。之后,它重新启动导致故障的指令。

重新启动意味着将进程的状态恢复到有问题的指令之前的状态。特别是在 LOOP 指令的情况下,它意味着恢复 CX 寄存器的值。有人可能认为您只需将 CX 加 1 即可,因为我们知道 CX 会递减,但显然,事情并没有那么简单。例如,查看这个erratum from Intel :

The protection violations involved usually indicate a probable software bug and restart is not desired if one of these violations occurs. In a Protected Mode 80286 system with wait states during any bus cycles, when certain protection violations are detected by the 80286 component, and the component transfers control to the exception handling routine, the contents of the CX register may be unreliable. (Whether CX contents are changed is a function of bus activity at the time internal microcode detects the protection violation.)

为了安全起见,他们需要在 LOOP 指令的每次迭代中保存 CX 的值,以便在需要时可靠地恢复它。

正是这种保存 CX 的额外负担使得 LOOP 如此缓慢。

与当时的其他公司一样,英特尔也在采用越来越多的 RISC。旧的 CISC 指令(LOOP、ENTER、LEAVE、BOUND)正在被逐步淘汰。我们仍然在手工编码的汇编中使用它们,但编译器完全忽略了它们。

关于performance - 为什么循环指令很慢?英特尔就不能有效地实现它吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35742570/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com