c++ - x86上的原子性-6ren

c++ - x86上的原子性

转载作者：行者123 更新时间：2023-12-01 23:10:34

32

4

8.1.2 Bus Locking

Intel 64 and IA-32 processors provide a LOCK# signal that is asserted automatically during certain critical memory operations to lock the system bus or equivalent link. While this output signal is asserted, requests from other processors or bus agents for control of the bus are blocked. Software can specify other occasions when the LOCK semantics are to be followed by prepending the LOCK prefix to an instruction.

它来自英特尔手册，第3卷

听起来像是对内存的原子操作将直接在内存(RAM)上执行。我很困惑，因为在分析程序集输出时看到“没什么特别的”。基本上，为 std::atomic<int> X; X.load()生成的程序集输出仅放置“额外”功能。但是，它负责适当的内存排序，而不是原子性。如果我正确理解 X.store(2)只是 mov [somewhere], $2。就这样。似乎它不会“跳过”缓存。我知道将对齐(例如ints)移动到内存是原子的。但是，我很困惑。

因此，我提出了疑问，但主要的问题是:

CPU如何在内部实现原子操作？

最佳答案

It sounds like the atomic operations on memory will be executed directly on memory (RAM).

不会，只要系统中每个可能的观察者都将操作视为原子操作，则该操作只能涉及缓存。

满足此要求非常困难 for atomic read-modify-write operations(类似于 lock add [mem], eax，尤其是地址未对齐的情况)，这是CPU可能会断言LOCK＃信号的时候。您仍然不会在asm中看到更多内容:硬件为 lock ed指令实现了ISA必需的语义。

尽管我怀疑现代CPU上是否存在物理外部LOCK＃引脚，但内存 Controller 内置于CPU中，而不是单独的 northbridge chip中。

std::atomic<int> X; X.load() puts only "extra" mfence.

对于seq_cst加载，编译器不支持MFENCE。

我想我读过一点，旧的MSVC确实为此发出了MFENCE(也许是为了防止对无防御的NT商店进行重新订购？还是代替在商店中进行？)。但这不再了:我测试了MSVC 19.00.23026.0。在 this program that dumps its own asm in an online compile&run site的asm输出中查找foo和bar。

我们这里不需要栅栏的原因是x86内存模型 disallows和 LoadStore and LoadLoad都重新排序。较早的(非seq_cst)存储区仍然可以延迟到seq_cst加载之后，因此与在 std::atomic_thread_fence(mo_seq_cst);之前使用独立的 X.load(mo_acquire);不同

If I understand properly the X.store(2) is just mov [somewhere], 2

这与您加载所需的 mfence的想法是一致的； seq_cst加载或存储中的一个或另一个需要完整的屏障，以防止禁止 StoreLoad reordering which could otherwise happen。

实际上，编译器开发人员选择 廉价负载(mov)/昂贵商店(mov + mfence)，因为负载更为常见。 C++11 mappings to processors 。

(x86内存排序模型是程序顺序加上带有存储转发( see also)的存储缓冲区。这使得 mo_acquire和 mo_release在asm中免费，只需要阻止编译时重新排序，并让我们选择是否将MFENCE完整 cargo 或仓库的障碍物。)

因此，seq_cst存储为 mov + mfence或 xchg。 Why does a std::atomic store with sequential consistency use XCHG?讨论了xchg在某些CPU上的性能优势。在AMD上，MFENCE(IIRC)被证明具有额外的序列化流水线语义(用于指令执行，而不仅仅是内存顺序)，可以阻止无序的exec，而在实践中的某些Intel CPU(Skylake)上，案子。

MSVC用于存储的asm与 clang's相同，使用 xchg以相同的指令执行存储+内存屏障。

原子发布或宽松存储可以只是 mov，它们之间的区别仅在于允许进行编译时重新排序的数量。

这个问题看起来像您先前的 Memory Model in C++ : sequential consistency and atomicity的第2部分，您在其中询问:

How does the CPU implement atomic operations internally?

正如您在问题中指出的那样，原子性与任何其他操作的顺序无关。 (即 memory_order_relaxed)。这仅表示该操作是作为单个不可分割的操作 hence the name发生的，而不是作为一部分可以在其他事物之前和之后发生的多个部分。

您可以“免费”获得原子性，而无需额外的硬件来对齐负载或存储多达内核，内存和I/O总线(如PCIe)之间的数据路径的大小。 ，即在各个级别的缓存之间以及在各个核心的缓存之间。在现代设计中，内存 Controller 是CPU的一部分，因此，即使是访问内存的PCIe设备也必须通过CPU的系统代理。 (这甚至使Skylake的eDRAM L4(在任何台式机CPU中都不可用:()用作内存侧缓存)(不同于Broadwell，后者将其用作L3 IIRC的牺牲品缓存)位于内存和系统中的其他所有内容之间，因此它甚至可以缓存DMA)。

Skylake system agent diagram, from IDF via ARStechnica

这意味着CPU硬件可以做任何必要的事情，以确保存储或装载相对于系统中任何其他可以观察到的东西都是原子的。如果有的话，这可能不多。 DDR内存使用足够宽的数据总线，以至于64位对齐的存储实际上确实在同一周期内通过内存总线将其通过电传输到DRAM。 (有趣的事实，但并不重要。只要一条消息足够大，像PCIe这样的串行总线协议(protocol)就不会阻止它成为原子。而且由于内存 Controller 是唯一可以直接与DRAM通讯的东西，内部执行什么无关紧要，只是它与CPU其余部分之间传输的大小无关紧要。但是无论如何， 这是“免费”部分:无需暂时阻止其他请求即可保持原子传输原子。

x86 guarantees that aligned loads and stores up to 64 bits are atomic，但访问范围更广。低功耗实现可以自由地将 vector 加载/存储分解为64位的块，就像P6从PIII到Pentium M所做的那样。

原子操作发生在缓存中

请记住，原子只是意味着所有观察者都将其视为已发生或未发生，从未部分发生过。没有要求它实际上立即到达主存储器(或者如果很快就被覆盖，则根本不存在)。 通过原子方式修改或读取L1缓存足以确保任何其他内核或DMA访问将看到对齐的存储或加载是单个原子操作。 ，如果此修改在商店执行后很长时间发生(例如，由于乱序执行而延迟到商店退役)，就可以了。

像Core2之类的现代CPU到处都有128位路径，通常具有原子性的SSE 128b加载/存储，这超出了x86 ISA的保证。但是请注意有趣的异常 on a multi-socket Opteron probably due to hypertransport.这证明，原子修改L1缓存不足以为比最窄的数据路径(在这种情况下不是L1缓存和执行单元之间的路径)更宽的存储区提供原子性。

对齐很重要:跨越缓存行边界的加载或存储必须在两个单独的访问中完成。这使其成为非原子的。

AMD/Intel上的 x86 guarantees that cached accesses up to 8 bytes are atomic as long as they don't cross an 8B boundary。 (或者仅对于P6及更高版本的Intel，不要越过缓存行边界)。这意味着整个缓存行(现代CPU上为64B)在Intel上原子传输，即使它比数据路径(Haswell/Skylake上L2和L3之间的32B)宽。这种原子性在硬件上并非完全“免费”，并且可能需要一些额外的逻辑来防止负载读取仅部分传输的缓存行。尽管高速缓存行传输仅在旧版本无效后才发生，所以在进行传输时，不应从旧拷贝中读取内核。实际上，AMD可能会在较小的范围内撕裂，这可能是因为对MESI使用了不同的扩展，可以在缓存之间传输脏数据。

对于更宽的操作数，例如以原子方式将新数据写入结构的多个条目中，您需要使用一个锁来保护它，所有锁都对其进行访问。 (您可能可以将x86 lock cmpxchg16b与重试循环一起使用以进行16b原子存储。请注意 there's no way to emulate it without a mutex。)

原子读取-修改-写入会变得更困难

相关:我对 Can num++ be atomic for 'int num'?的回答对此有更详细的说明。

每个核心都有一个专用的L1缓存，该缓存与所有其他核心保持一致(使用 MOESI协议(protocol))。高速缓存行以大小从64位到256位不等的块在高速缓存和主内存级别之间传输。 (这些传输实际上可能在整个缓存行的粒度上是原子的？)

要执行原子RMW，内核可以将L1高速缓存行保持为“已修改”状态，而无需对负载和存储之间的受影响高速缓存行进行任何外部修改，系统的其余部分会将操作视为原子操作。 (因此这是原子的，因为通常的乱序执行规则要求本地线程将自己的代码视为按程序顺序运行。)

它可以通过在运行原子RMW时不处理任何高速缓存一致性消息来实现此目的(或者更复杂的版本，它可以为其他操作提供更多的并行性)。

未对齐的 lock ed操作是一个问题:我们需要其他内核才能看到对两个高速缓存行的修改是在单个原子操作中发生的。这可能需要实际存储到DRAM，并获得总线锁定。 (AMD的优化手册说，当缓存锁不足时，这就是CPU上发生的情况。)

关于c++ - x86上的原子性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38447226/

32

4

0

文章推荐： r - 如何从 kable() 为表中的名称添加下标？

文章推荐： java - 无法运行构建 Ant 项目的脚本

文章推荐： ajax - 是否可以使用 Google Chrome 打开自定义 URL 方案？

JavaRMI遇到的ConnectionrefusedtoHost:127.x.x.x/192.x.x.x/10.x.x.x问题解决方法
问题故障解决记录 -- Java RMI Connection refused to host: x.x.x.x .... 在学习JavaRMI时，我遇到了以下情况问题原因：可
haskell - 为什么 `f x = x x` 和 `g x = x x x x x` 有相同的类型
我正在玩 Rank-N-type 并尝试输入 x x .但我发现这两个函数可以以相同的方式输入，这很不直观。 f :: (forall a b. a -> b) -> c f x = x x g ::
java - 比较两个版本字符串(4.x.x.x、5.x.x.x)
这个问题已经有答案了: How do you compare two version Strings in Java? (31 个回答) 已关闭 8 年前。有谁知道如何在Java中比较两个版本字符串
java - x=20;x=++x+++x + x++ ;java中x的最终值为65
这个问题已经有答案了: How do the post increment (i++) and pre increment (++i) operators work in Java? (14 个回答)
linux - 如何获取完整的目标IP地址(x.x.x.x/x)netstat命令？
下面是带有 -n 和 -r 选项的 netstat 命令的输出，其中目标字段显示压缩地址 (127.1/16)。我想知道 netstat 命令是否有任何方法或选项可以显示整个目标 IP (127.1.
logic - 我如何根据精益原则证明 (∀ x, ¬ A x) → ¬ ∃ x, A x？
我知道要证明 : (¬ ∀ x, p x) → (∃ x, ¬ p x) 证明是: theorem : (¬ ∀ x, p x) → (∃ x, ¬ p x) := begin intro n
c++ - x*x != x*x 在自动变量中？
x * x 如何通过将其存储在“auto 变量”中来更改？我认为它应该仍然是相同的，并且我的测试表明类型、大小和值显然都是相同的。但即使 x * x == (xx = x * x) 也是错误的。什么
c# - 如何将表达式 x=>!x 重写为 x=>x!=true 并将 x=>x 重写为 x=>x==true
假设，我们这样表达: someIQueryable.Where(x => x.SomeBoolProperty) someIQueryable.Where(x => !x.SomeBoolProper
regex - 为什么正则表达式引擎选择从 `..X` 匹配模式 `.X|..X|X.`？
我有一个字符串 1234X5678 我使用这个正则表达式来匹配模式 .X|..X|X. 我得到了 34X 问题是为什么我没有得到 4X 或 X5？为什么正则表达式选择执行第二种模式？最佳答案这里
javascript - 可以 (x++ !== x) && (x++ === x);返回真？
我的一个 friend 在面试时遇到了这个问题找到使该函数返回真值的 x 值 function f(x) { return (x++ !== x) && (x++ === x); } 面试官
java - 为什么通常 Map = new HashMap() 而不是 HashMap = new HashMap()？
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Isn't it easier to work with foo when it is represented b
针对多个版本的 Android 应用程序开发，即 1.x、2.x.x、3.x.x、4.x.x
我是 android 的新手，我一直在练习开发一个针对 2.2 版本的应用程序，我需要帮助了解如何将我的应用程序扩展到其他版本，即 1.x、2.3.x、3 .x 和 4.x.x，以及一些针对屏幕分辨率
x = [x] && x.push(x) when var x; 之间的 javascript 数组混淆
为什么案例 1 给我们 :error: TypeError: x is undefined on line... //case 1 var x; x.push(x); console.log(x);
python - Python 列表中 x += x 和 x = x + x 的区别
代码优先: # CASE 01 def test1(x): x += x print x l = [100] test1(l) print l CASE01 输出: [100, 100
java - 如何确定看起来像这样的大 O : (x -1) + (x - 2) + (x - 3) . .. (x - x)
我正在努力温习我的大计算。如果我有将所有项目移至 'i' 2 个空格右侧的函数，我有一个如下所示的公式: (n -1) + (n - 2) + (n - 3) ... (n - n) 第一次迭代我必须
javascript - 从 IP 字符串计算 IP 范围等于 x.x.x.x/x
给定 IP 字符串(如 x.x.x.x/x)，我如何或将如何计算 IP 的范围最常见的情况可能是 198.162.1.1/24但可以是任何东西，因为法律允许的任何东西。我要带198.162.1.1/
javascript - 为什么 var x = x = x || {} 比 var x = x || 更彻底{}？
在我作为初学者努力编写干净的 Javascript 代码时，我最近阅读了 this article当我偶然发现这一段时，关于 JavaScript 中的命名空间: The code at the ve
javascript - var x = x || {}；与 x = window.x || {}；
我正在编写一个脚本，我希望避免污染 DOM 的其余部分，它将是一个用于收集一些基本访问者分析数据的第 3 方脚本。我通常使用以下内容创建一个伪“命名空间”: var x = x || {}; 我正在
docker - create_network():无法分配网关(x.x.x.x):该地址已在测试用例中使用
我尝试运行我的test_container_services.py套件，但遇到了以下问题： docker.errors.APIError：500服务器错误：内部服务器错误（“ b'{” message
c# - "x as X != null"和 "x is X"总是返回相同的结果吗？
是否存在这两个 if 语句会产生不同结果的情况？ if(x as X != null) { // Do something } if(x is X) { // Do something } 编

首页

博学

6Ren·AI

商城

c++ - x86上的原子性

8.1.2 Bus Locking

How does the CPU implement atomic operations internally?