gpt4 book ai didi

lock-free - 自旋锁总是需要内存屏障吗?在内存屏障上旋转是否昂贵?

转载 作者:行者123 更新时间:2023-12-04 04:19:06 52 4
gpt4 key购买 nike

我写了一些无锁代码,可以在本地正常工作
读取,在大多数情况下。

本地旋转内存读取是否一定意味着我
必须始终在旋转之前插入内存屏障
读?

(为了验证这一点,我设法制作了一个阅读器/作者
导致读者永远看不到的组合
书面值(value),在某些非常具体的情况下
条件——专用 CPU,附加到 CPU 的进程,
优化器一直向上,没有其他工作完成
循环——所以箭头确实指向那个方向,但我不是
完全确定通过内存旋转的成本
屏障。)

如果旋转通过内存屏障的成本是多少
缓存的存储缓冲区中没有要刷新的内容?
即,所有过程正在做(在C中)是

while ( 1 ) {
__sync_synchronize();
v = value;
if ( v != 0 ) {
... something ...
}
}

我是否正确假设它是免费的并且不会妨碍
有任何流量的内存总线?

另一种说法是问:内存屏障是否有用
除了:刷新存储缓冲区,应用
对其无效,并阻止编译器
重新排序其位置的读/写?

反汇编, __sync_synchronize() 似乎转化为:
lock orl

来自英特尔手册(对于新手来说同样模糊):
Volume 3A: System Programming Guide, Part 1 --   8.1.2

Bus Locking

Intel 64 and IA-32 processors provide a LOCK# signal that
is asserted automatically during certain critical memory
operations to lock the system bus or equivalent link.
While this output signal is asserted, requests from other
processors or bus agents for control of the bus are
blocked.

[...]

For the P6 and more recent processor families, if the
memory area being accessed is cached internally in the
processor, the LOCK# signal is generally not asserted;
instead, locking is only applied to the processor’s caches
(see Section 8.1.4, “Effects of a LOCK Operation on
Internal Processor Caches”).

我的翻译:“当你说 LOCK 时,这会很贵,但我们是
只在必要时才这样做。”

@BlankXavier:

我确实测试过,如果写入器没有明确地从存储缓冲区中推出写入并且它是该 CPU 上运行的唯一进程,那么读者可能永远看不到写入器的效果(我可以使用测试程序重现它,但是正如我上面提到的,它只发生在特定的测试中,具有特定的编译选项和专用的核心分配——我的算法工作正常,只有当我对它的工作原理感到好奇并编写了我意识到它可能具有的显式测试时一个问题在路上)。

我认为默认情况下简单的写入是 WB 写入(回写),这意味着它们不会立即被刷新,但读取将采用它们的最新值(我认为他们称之为“存储转发”)。所以我为作者使用了 CAS 指令。我在 Intel 手册中发现了所有这些不同类型的写入实现(UC、WC、WT、WB、WP),Intel vol 3A 第 11-10 章,仍在学习它们。

我的不确定性在于读者方面:我从 McKenney 的论文中了解到,还有一个失效队列,一个从总线到缓存的传入失效队列。我不确定这部分是如何工作的。特别是,您似乎暗示循环通过正常读取(即,非锁定,没有障碍,并且仅使用 volatile 以确保优化器在编译后离开读取)每次都会检查“无效队列” (如果存在这样的事情)。如果简单的读取还不够好(即可以读取仍然有效的旧缓存行等待排队的失效(这听起来对我来说也有点不连贯,但是失效队列如何工作呢?)),那么原子读取将是必要的,我的问题是:在这种情况下,这会对公共(public)汽车有什么影响吗? (我认为可能不会。)

我仍在阅读英特尔手册,虽然我看到了关于存储转发的精彩讨论,但我还没有找到关于失效队列的很好讨论。我决定将我的 C 代码转换为 ASM 并进行实验,我认为这是真正了解其工作原理的最佳方式。

最佳答案

“xchg reg,[mem]”指令将通过内核的 LOCK 引脚指示其锁定意图。该信号穿过其他内核并缓存到总线主控总线(PCI变体等),总线主控总线将完成它们正在做的事情,最终LOCKA(确认)引脚将向CPU发出xchg可能完成的信号。然后 LOCK 信号关闭。此序列可能需要很长时间(数百个 CPU 周期或更多)才能完成。之后,其他内核的相应缓存行将失效,您将拥有一个已知状态,即已在内核之间同步的状态。

xchg 指令是实现原子锁所必需的。如果锁本身是成功的,您就可以访问您已定义锁以控制访问的资源。这样的资源可以是内存区域、文件、设备、功能或您拥有的任何东西。尽管如此,程序员始终可以编写代码在该资源被锁定时使用它,而在它没有被锁定时不使用它。通常,成功锁定后的代码序列应尽可能短,以便尽可能少地阻碍其他代码获取对资源的访问。

请记住,如果锁定不成功,您需要通过发出新的 xchg 重试。

“无锁”是一个吸引人的概念,但它需要消除共享资源。如果您的应用程序有两个或多个内核同时读取和写入公共(public)内存地址,则“无锁”不是一种选择。

关于lock-free - 自旋锁总是需要内存屏障吗?在内存屏障上旋转是否昂贵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6810733/

52 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com