gpt4 book ai didi

x86 - 障碍/围栏和获取、释放语义是如何在微架构上实现的?

转载 作者:行者123 更新时间:2023-12-03 22:58:45 26 4
gpt4 key购买 nike

很多问题SO和文章/书籍,例如https://mirrors.edge.kernel.org/pub/linux/kernel/people/paulmck/perfbook/perfbook.2018.12.08a.pdf , Preshing的文章如https://preshing.com/20120710/memory-barriers-are-like-source-control-operations/和他的整个系列文章,抽象地讨论内存排序,根据不同障碍类型提供的排序和可见性保证。我的问题是这些障碍和内存排序语义是如何在 x86 和 ARM 微架构上实现的?

对于存储-存储屏障,似乎在 x86 上,存储缓冲区维护存储的程序顺序并将它们提交到 L1D(从而使它们以相同的顺序全局可见)。如果存储缓冲区未排序,即不按程序顺序维护它们,如何实现存储存储屏障?它只是以这样一种方式“标记”存储缓冲区,即在屏障提交之前存储在缓存一致域之前存储在之后?还是内存屏障实际上刷新存储缓冲区并停止所有指令直到刷新完成?可以双向实现吗?

对于负载-负载屏障,如何防止负载-负载重新排序?很难相信 x86 会按顺序执行所有加载!我假设负载可以无序执行但按顺序提交/退出。如果是这样,如果一个 cpu 对 2 个不同的位置执行 2 个加载,那么一个加载如何确保它从 T100 获得一个值,而下一个在 T100 上或之后获得它?如果第一次加载在缓存中未命中并且正在等待数据并且第二次加载命中并获取其值,该怎么办。当加载 1 获得它的值时,它如何确保它获得的值不是来自加载 2 的值的较新商店?如果负载可以乱序执行,如何检测到违反内存顺序?

同样,加载-存储屏障(隐含在 x86 的所有加载中)是如何实现的,以及存储-加载屏障(例如 mfence)是如何实现的?即 dmb ld/st 和 just dmb 指令在 ARM 上进行微架构做什么,每个加载和每个存储以及 mfence 指令在 x86 上进行微架构以确保内存排序?

最佳答案

其他问答中已经涵盖了其中的大部分内容,但我将在此处进行总结。 (并寻找要添加的链接)。不过,好问题,将所有这些都收集在一个地方很有用。

在 x86 上,每个 asm 加载都是一个获取加载 .为了有效地实现这一点,现代 x86 硬件比允许的更早地推测加载,然后检查该推测。 (可能会导致内存顺序错误推测管道核弹。)为了跟踪这一点,英特尔将加载和存储缓冲区的组合称为“内存顺序缓冲区”。

弱序 ISA 不必推测,它们可以按任何顺序加载。

x86 商店订购 仅通过让存储按程序顺序从存储缓冲区提交到 L1d 来维护。

至少在 Intel CPU 上,当它发出时(从前端到 ROB + RS)为存储分配一个存储缓冲区条目。所有 uops 都需要为它们分配一个 ROB 条目,但一些 uops 还需要分配其他资源,例如加载或存储缓冲区条目、它们读/写的寄存器的 RAT 条目等。

所以我认为存储缓冲区本身是有序的 .当存储地址或存储数据 uop 执行时,它只是将地址或数据写入其已分配的存储缓冲区条目。由于提交(释放 SB 条目)和分配都是按程序顺序进行的,我假设它在物理上是一个带有头和尾的循环缓冲区,就像 ROB。 (与 RS 不同)。

避免 LoadStore 基本上是免费的 :加载在执行之前无法退出(从缓存中获取数据)。商店在退休后才能提交。按顺序停用意味着所有先前的加载都在存储“毕业”并准备好提交之前完成。

一个可以在实践中进行加载存储重新排序的弱排序 uarch 可能会记分板加载:让它们在它们不是无故障的但在数据到达之前退休。

这在有序内核上似乎更有可能,但 IDK。因此,您可能有一个已停用的负载,但如果在数据实际到达之前有任何尝试读取它,则寄存器目的地仍将停止。我们知道,有序内核在实践中以这种方式工作,不需要在后面的指令可以执行之前完成加载。 (这就是为什么使用大量寄存器的软件流水线在此类内核上如此有值(value),例如实现 memcpy。在有序内核上立即读取加载结果会破坏内存并行性。)

How is load->store reordering possible with in-order commit?更深入地讨论这一点,对于有序与无序。

屏障说明

对普通商店做任何事情的唯一屏障指令是 mfence在实践中,它会停止内存操作(或整个管道),直到存储缓冲区耗尽。 Are loads and stores the only instructions that gets reordered?涵盖了像 lfence 一样的 Skylake-with-updated-microcode 行为以及。
lfence主要是为了阻止后续指令发出的微体系结构效应,直到所有先前的指令都离开乱序后端(退休)。 lfence 的用例内存排序几乎不存在。

有关的:

  • How many memory barriers instructions does an x86 CPU have?
  • How can I experience "LFENCE or SFENCE can not pass earlier read/write"
  • Does lock xchg have the same behavior as mfence?
  • Does the Intel Memory Model make SFENCE and LFENCE redundant?
  • Understanding the impact of lfence on a loop with two long dependency chains, for increasing lengths详细介绍了 LFENCE 如何停止执行后续指令,以及这对性能意味着什么。
  • When should I use _mm_sfence _mm_lfence and _mm_mfence高级语言的内存模型比 x86 弱,因此有时您只需要一个可以编译为没有 asm 指令的屏障。使用 _mm_sfence()当你没有使用任何 NT 存储时,只会让你的代码无缘无故地变慢 atomic_thread_fence(mo_release) .
  • 关于x86 - 障碍/围栏和获取、释放语义是如何在微架构上实现的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58070428/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com