gpt4 book ai didi

arm - 如何使用有序提交来进行load-> store重新排序?

转载 作者:行者123 更新时间:2023-12-02 01:25:49 28 4
gpt4 key购买 nike

ARM允许使用后续存储对加载进行重新排序,以便以下伪代码:

// CPU 0 | // CPU 1
temp0 = x; | temp1 = y;
y = 1; | x = 1;


可能会导致temp0 == temp1 == 1(在实践中也是可以观察到的)。我无法理解这种情况如何发生;似乎按顺序提交会阻止它(据我的理解,几乎所有OOO处理器中都存在)。我的推理是:“负载在提交之前必须具有其值,在存储之前必须具有其值,并且存储的值直到其提交才对其他处理器可见。”

我猜测我的一个假设一定是错误的,并且必须满足以下条件之一:


指令不需要一路提交。以后的存储区可以安全地提交并在较早的加载之前可见,只要在存储区提交时核心可以保证先前的加载(以及所有中间指令)不会触发异常,并且加载的地址为保证与商店有所不同。
负载可以在知道其值之前提交。我不知道如何实现它。
在提交存储之前,它们可以变得可见。也许允许某处的内存缓冲区将存储转发到其他线程的加载,即使加载已排入较早的队列?
还有其他东西吗?


有很多假设的微体系结构特征可以解释这种行为,但是我最好奇的是现代弱序CPU中实际存在的那些。

最佳答案

您的假设要点对我来说都是正确的,只是您可以构建一个uarch,在其中检查负载(TLB)以确保确实可以发生之后,就可以从OoO核心中撤出负载。可能会有OoO exec CPU来执行此操作(更新:显然有)。
我认为x86 CPU要求负载才能使数据真正退休后才能到达,但是它们强大的内存模型仍然不允许LoadStore重新排序。因此ARM肯定会有所不同。
没错,退休之前其他任何核心都无法看到商店。那就是疯狂。即使在SMT core(一个物理核心上有多个逻辑线程)上,它也会将两个逻辑线程上的推测链接在一起,如果任何一个检测到错误推测,它们都必须回滚。这将使SMT的目的失去,即让一个逻辑线程利用其他线程的停顿。
(相关:使已退休但尚未提交给L1d的存储对于同一内核上的其他逻辑线程可见,这是某些真正的PowerPC实现如何使线程在存储的全局顺序上不一致的原因。Will two atomic writes to different locations in different threads always be seen in the same order by other threads?

按顺序执行的CPU可以开始加载(检查TLB并写入加载缓冲区条目),并且只有在指令试图在准备好之前使用结果的情况下,它才会暂停。然后,包括存储在内的后续指令即可正常运行。基本上,这是有序管道中非糟糕性能所必需的;在每个高速缓存未命中(甚至只是L1d延迟)时停滞将是不可接受的。内存并行性即使在有序CPU上也是如此。它们可以具有多个加载缓冲区,以跟踪多个未决的高速缓存未命中。高性能(ish)的有序ARM内核(如Cortex-A53)仍广泛用于现代智能手机中。
因此,如果加载未命中缓存,但是存储命中了(并在较早的缓存缺失加载获取数据之前提交了L1d),则可以对LoadStore重新排序。 (Jeff Preshing intro to memory reording将该示例用于LoadStore,但根本不涉及uarch详细信息。)
在您检查了TLB和/或任何内存区域的内容之后,加载就不会出错。该部分必须在退出之前或到达有序管道的末端之前完成。就像坐在存储缓冲区中等待提交的已退休存储一样,坐在加载缓冲区中的已退休负载肯定在某个时刻发生。
因此,有序管道上的序列为:

lw r0, [r1] TLB命中,但未命中L1d缓存。加载执行单元将地址(r1)写入加载缓冲区。以后任何尝试读取r0的指令都将停止,但是我们可以肯定地知道负载没有故障。
r0绑定为等待该装载缓冲区准备就绪,lw指令本身可以离开管道(退出),以后的指令也可以离开。

任何不读r0的其他指令。这将使有序管道停滞不前。

sw r2, [r3]存储执行单元将地址+数据写入存储缓冲区/队列。然后该指令可以退出。
探查加载缓冲区会发现此存储与挂起的加载不重叠,因此可以提交给L1d。 (如果它重叠了,则无论如何都无法提交它,直到MESI RFO完成,并且快速重启会将传入的数据转发到加载缓冲区。因此,即使不对每个存储进行探测,处理该情况也不会太复杂,但我们只看一下单独的缓存行案例,在这里我们可以对LoadStore进行重新排序)
致力于L1d =变得全球可见。当较早的负载仍在等待高速缓存行到达时,可能会发生这种情况。



对于OoO CPU,您需要某种方法将加载完成绑定回OoO内核,以获取等待加载结果的指令。我想这是可能的,但这意味着寄存器的架构/退休值可能不会存储在内核中的任何位置。由于错误推测而导致的管道刷新和其他回滚将不得不依赖于传入负载与物理和体系结构寄存器之间的关联。 (不过,在管道回滚上不刷新存储缓冲区已经是CPU要做的事情。位于存储缓冲区中的已退休但尚未提交的存储区无法回滚。)
对于具有很小的OoO窗口的Uarches来说,这可能是一个不错的设计想法,因为OoO窗口太小,无法接近隐藏缓存未命中。

我们有在OoO ARM上对LoadStore重新排序的实验证据:https://www.cl.cam.ac.uk/~pes20/ppc-supplemental/test7.pdf的7.1节显示了Tegra 2上“负载缓冲”的非零计数,该计数基于无序的Cortex-A9 uarch。我没有查找其他所有对象,但是我确实重写了答案,以表明这也是乱序CPU的可能机制。不过,我不确定情况是否如此。

关于arm - 如何使用有序提交来进行load-> store重新排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52215031/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com