gpt4 book ai didi

cpu - 了解 CPU 流水线阶段与指令吞吐量

转载 作者:行者123 更新时间:2023-12-03 20:20:16 27 4
gpt4 key购买 nike

我遗漏了一些基本的东西。 CPU 流水线:在基本层面上,为什么指令需要不同数量的时钟周期才能完成,为什么有些指令在多级 CPU 中只需要 1 个周期?

除了明显的“不同的指令需要不同的工作量才能完成”,听我说完...

考虑具有大约 14 级流水线的 i7。完成运行需要 14 个时钟周期。 AFAIK,这应该意味着整个流水线有 14 个时钟的延迟。然而事实并非如此。

XOR 在 1 个周期内完成并有 1 个周期的延迟,表明它没有经过所有 14 个阶段。 BSR 有 3 个周期的延迟,但每个周期有 1 个吞吐量。 AAM 的延迟为 20 个周期(多于阶段数),吞吐量为 8(在 Ivy Bridge 上)。

有些指令不能每个时钟都发出,但需要少于 14 个时钟才能完成。

我知道多个执行单元。我不明白延迟和吞吐量方面的指令长度与流水线阶段的数量有何关系。

最佳答案

我认为现有答案中缺少的是“旁路”或“转发”数据路径的存在。为简单起见,让我们坚持使用 MIPS 5 级流水线。每条指令从诞生到死亡需要 5 个周期——获取、解码、执行、存储、写回。这就是处理一条指令所需的时间。

您想知道一条指令将其结果传递给相关指令需要多长时间。假设您有两个连续的 ADD 指令,并且存在通过 R1 的依赖关系:

ADD R1, R2, R3
ADD R4, R1, R5

如果没有转发路径,我们必须将第二条指令暂停多个周期(2 或 3 取决于回写的工作方式),以便第一个指令可以在第二个指令之前将其结果存储到寄存器文件中在解码阶段将其读取为输入。

但是,存在允许从管道中挑选出有效结果(但尚未写回的结果)的转发路径。因此,假设第一个 ADD 在解码中从寄存器文件中获取所有输入。第二个将从寄存器文件中取出 R5,但它会在执行阶段后从流水线寄存器中取出 R1。换句话说,我们在一个周期后将 ALU 的输出路由回其输入。

无序处理器无处不在地使用转发。他们将有许多不同的功能单元,这些单元有很多不同的延迟。例如,ADD 和 AND 通常需要一个周期(做数学运算,抛开之前和之后的所有流水线阶段),MUL 大约需要 4 个,浮点运算需要很多周期,内存访问具有可变延迟(由于缓存未命中)等。

通过使用转发,我们可以将指令的关键路径限制为仅执行单元的延迟,而其他所有内容(获取、解码、退出)都在关键路径之外。指令被解码并转储到指令队列中,等待其他执行指令产生它们的输入。当一条指令的依赖性得到满足时,它就可以开始执行。

让我们考虑这个例子

MUL R1,R5,R6
ADD R2,R1,R3
AND R7,R2,R8

我将尝试绘制一条时间线来显示这些指令在流水线中的流动。

MUL  FDIXXXXWR
ADD FDIIIIXWR
AND FDIIIIXWR

键:

F - Fetch
D - Decode
I - Instruction queue (IQ)
X - execute
W - writeback/forward/bypass
R - retire

因此,如您所见,乘法指令的总生命周期为 9 个周期。但是 MUL 和 ADD 的执行有重叠,因为处理器是流水线的。当 ADD 进入 IQ 时,它必须等待其输入 (R1),同样依赖于 ADD 结果的 AND (R2) 也是如此。我们关心的不是 MUL 总共存活了多长时间,而是任何依赖指令必须等待多长时间。这是它的有效延迟,即 4 个周期。正如您所看到的,一旦 ADD 执行,依赖的 AND 就可以在下一个循环中执行,再次由于转发。

关于cpu - 了解 CPU 流水线阶段与指令吞吐量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32689200/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com