c++ - `std::memory_order_acquire` 的语义是否需要 x86/x86

c++ - `std::memory_order_acquire` 的语义是否需要 x86/x86_64 上的处理器指令？

转载作者：可可西里更新时间：2023-11-01 18:35:57

26

4

众所周知，在 x86 上，操作 load() 和 store() 内存屏障 memory_order_consume, memory_order_acquire, memory_order_release , memory_order_acq_rel 不需要缓存和流水线的处理器指令，汇编代码始终对应于 std::memory_order_relaxed，这些限制仅对编译器的优化是必要的:http://www.stdthread.co.uk/forum/index.php?topic=72.0

这段反汇编代码为 store() (MSVS2012 x86_64) 确认了这一点:

std::atomic<int> a;
    a.store(0, std::memory_order_relaxed);
000000013F931A0D  mov         dword ptr [a],0  
    a.store(1, std::memory_order_release);
000000013F931A15  mov         dword ptr [a],1

但是这段代码没有为 load() (MSVS2012 x86_64) 确认这一点，使用 lock cmpxchg:

    int val = a.load(std::memory_order_acquire);
000000013F931A1D  prefetchw   [a]  
000000013F931A22  mov         eax,dword ptr [a]  
000000013F931A26  mov         edx,eax  
000000013F931A28  lock cmpxchg dword ptr [a],edx  
000000013F931A2E  jne         main+36h (013F931A26h)  

    std::cout << val << "\n";

但是 Anthony Williams said :

some_atomic.load(std::memory_order_acquire) does just drop through to a simple load instruction, and some_atomic.store(std::memory_order_release) drops through to a simple store instruction.

我哪里错了，std::memory_order_acquire 的语义需要 x86/x86_64 上的处理器指令 lock cmpxchg 还是只需要一个简单的加载指令 mov 正如 Anthony Williams 所说？

答案:与此错误报告相同:http://connect.microsoft.com/VisualStudio/feedback/details/770885

最佳答案

没有。 std::memory_order_acquire 的语义不需要 x86/x86_64 上的处理器指令。

除了 atomic.store(val, std::memory_order_seq_cst); 需要 外，x86_64 上的任何 load()/store() 操作都不需要处理器指令(锁/栅栏) (LOCK) XCHG 或替代方法:MOV(进入内存)，MFENCE。

x86(CAS 除外)以及 ARM 和 PowerPC 的处理器内存屏障指令:http://www.cl.cam.ac.uk/~pes20/cpp/cpp0xmappings.html

反汇编程序 GCC 4.8.1 x86_64 - GDB - load():

    20      temp = a.load(std::memory_order_relaxed);
    21      temp = a.load(std::memory_order_acquire);
    22      temp = a.load(std::memory_order_seq_cst);
0x46140b  <+0x007b>         mov    0x38(%rsp),%ebx
0x46140f  <+0x007f>         mov    0x34(%rsp),%esi
0x461413  <+0x0083>         mov    0x30(%rsp),%edx

反汇编程序 GCC 4.8.1 x86_64 - GDB - store():

a.store(temp, std::memory_order_relaxed);
a.store(temp, std::memory_order_release);
a.store(temp, std::memory_order_seq_cst);
0x4613dc  <+0x004c>         mov    %eax,0x20(%rsp)
0x4613e0  <+0x0050>         mov    0x38(%rsp),%eax
0x4613e4  <+0x0054>         mov    %eax,0x20(%rsp)
0x4613e8  <+0x0058>         mov    0x38(%rsp),%eax
0x4613ec  <+0x005c>         mov    %eax,0x20(%rsp)
0x4613f0  <+0x0060>         mfence
0x4613f3  <+0x0063>         mov    %ebx,0x20(%rsp)

反汇编程序 MSVS 2012 x86_64 - load() - 它与此错误报告相同:http://connect.microsoft.com/VisualStudio/feedback/details/770885 :

    temp = a.load(std::memory_order_relaxed);
000000013FE51A1F  prefetchw   [a]  
000000013FE51A24  mov         eax,dword ptr [a]  
000000013FE51A28  nop         dword ptr [rax+rax]  
000000013FE51A30  mov         ecx,eax  
000000013FE51A32  lock cmpxchg dword ptr [a],ecx  
000000013FE51A38  jne         main+40h (013FE51A30h)  
000000013FE51A3A  mov         dword ptr [temp],eax  
    temp = a.load(std::memory_order_acquire);
000000013FE51A3E  prefetchw   [a]  
000000013FE51A43  mov         eax,dword ptr [a]  
000000013FE51A47  nop         word ptr [rax+rax]  
000000013FE51A50  mov         ecx,eax  
000000013FE51A52  lock cmpxchg dword ptr [a],ecx  
000000013FE51A58  jne         main+60h (013FE51A50h)  
000000013FE51A5A  mov         dword ptr [temp],eax  
    temp = a.load(std::memory_order_seq_cst);
000000013FE51A5E  prefetchw   [a]  
    temp = a.load(std::memory_order_seq_cst);
000000013FE51A63  mov         eax,dword ptr [a]  
000000013FE51A67  nop         word ptr [rax+rax]  
000000013FE51A70  mov         ecx,eax  
000000013FE51A72  lock cmpxchg dword ptr [a],ecx  
000000013FE51A78  jne         main+80h (013FE51A70h)  
000000013FE51A7A  mov         dword ptr [temp],eax

反汇编程序 MSVS 2012 x86_64 - store():

    a.store(temp, std::memory_order_relaxed);
000000013F8C1A58  mov         eax,dword ptr [temp]  
000000013F8C1A5C  mov         dword ptr [a],eax  

    a.store(temp, std::memory_order_release);
000000013F8C1A60  mov         eax,dword ptr [temp]  
000000013F8C1A64  mov         dword ptr [a],eax  

    a.store(temp, std::memory_order_seq_cst);
000000013F8C1A68  mov         eax,dword ptr [temp]  
000000013F8C1A6C  xchg        eax,dword ptr [a]

关于c++ - `std::memory_order_acquire` 的语义是否需要 x86/x86_64 上的处理器指令？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18576986/

26

4

0

文章推荐： c++ - 玩弄 for arguments

文章推荐： C++11 非拥有引用/指向 unique_ptr 的指针？

文章推荐： c++ - 如何使用 CoCreateInstance() 获取 com 对象？

文章推荐： c++ - 为什么 pthread_cond_timedwait 文档谈论 "unavoidable race"？

c - 确定运行线程的套接字/处理器
我为 4 套接字服务器的大对象( double 矩阵)编写 NUMA-aaware 缓存。我观察到套接字间通信是我的应用程序的瓶颈。因此，我希望不同套接字上的线程具有单独的矩阵缓存。我已将线程限制到特
C: JSON 处理器
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: Parsing JSON using C? 处理 JSON 的最佳 C 库是什么？ http://www.j
PHP Spintax 处理器
我一直在使用递归 SpinTax 处理器，如 here 所示, 它适用于较小的字符串。然而，当字符串超过 20KB 时，它开始耗尽内存，这就成了一个问题。如果我有这样的字符串: {Hello|How
c# - 编译时的目标平台/处理器
C# 中是否有一个#define 允许我在编译时知道我是针对 x86 (Win32) 还是针对 x64 (Win64) 进行编译？最佳答案默认情况下没有办法做到这一点。原因是 C# 代码不是针对特
architecture - 叶说明(处理器/程序集)
我不确定 SO 是否是提出这个问题的最佳场所。如果没有，请告诉我应该去哪个姊妹网站。我一直在阅读一篇关于英特尔的可信执行技术 (TXT) 的论文，其中包含以下我似乎无法理解的文字: “英特尔创建了一
xslt - 节省内存的 XSLT 处理器
我需要一个工具来针对执行 XSLT非常大 XML 文件。需要明确的是，我不需要任何东西来设计、编辑或调试 XSLT，只需执行它们即可。我正在使用的转换已经很好地优化了，但是大文件导致我尝试过的工具(
apache-camel - 处理器，组件和端点之间的区别
我正在学习Apache Camel。能否请您解释一下关于Apache Camel的处理器，组件和端点之间的区别。最佳答案我建议所有刚接触Apache Camel的人阅读这篇文章，它很好地解释了C
concurrency - 锁定 Camel 处理器
我想知道在 Camel 处理器上获得同步的方法。我在 docs 找到的唯一相关内容: Note that there is no concurrency or locking issue when
multithreading - 有没有办法在服务器级别强制停止 nifi 处理器？
我看到这个 https://issues.apache.org/jira/browse/NIFI-78在 jira 上，但它引用了 java。有没有办法将 nifi 进程映射到服务器上的线程，以便我可
java - react 器选择接收器/处理器
我有以下用例: 在一个应用程序中，我使用 X 线程消费一些消息，其中我有一个这样定义的 Consumer 实现: public interface Consumer { onMessage(
assembly - 不能使用 CPU12 处理器
CPU12 处理器中是否有提供简单 NOT 功能的代码？最佳答案这应该是 the datasheet您正在寻找。没有可用的logical NOT，您必须自己编写代码。关于assembly - 不
java - Oracle XSLT 处理器
我对 Oracle XDK 中包含的 Java XSLT 处理器与 Oracle DB 中嵌入并由 SQL XMLtransform 函数使用的 XSLT 处理器之间的关系感到困惑。这些是相同的野兽
java - 端点的 Camel 处理器
我正在试用 Camel，发现它是一个方便的端点集成工具。我已经设置了以下实验性应用程序: 第一个端点是一个简单的 http-get 请求(在命令行上使用 curl)。这与使用 Jetty 的中央交换机
java - 将未编码的对象传递给 Camel 处理器
我正在为一个应用程序使用 Apache Camel 和 Spring Boot。我需要从目录中读取数据，然后解码读取的 xml，然后处理解码的对象以在其中设置更多数据，然后再次对其进行编码并将其发送到
java - 扩展原生 NiFi 处理器
我已经知道如何编写自定义处理器(扩展org.apache.nifi.processor.AbstractProcessor)。我已经使用了这种技术，并且也可以轻松创建自定义 org.apache.ni
Python EasyList 处理器/解析器
是否有任何用 python 编写的 EasyList 处理器/解析器？ http://easylist.adblockplus.org/en/ 最佳答案找到了!就像一个月后:( http://adb
css - 浏览器 SCSS 处理器？
我有一个无法安装任何东西的开发(说来话长)。我只需要使用纯 HTML/浏览器 JS 进行开发，并且我想使用 CSS 预处理器。我喜欢 SCSS (SASS)，但为了使用它，我必须在我的机器上安装 ru
programming-languages - 特定于语言的架构/处理器
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
c - 如何开始使用 ARM 处理器？
对于新手来说，是直接从 ARM 处理器的数据表和用户手册开始，还是先了解一下 ARM 世界然后再继续？最佳答案当我开始使用一项(对我而言)新技术时，我首先会找到尽可能多的数据表和应用说明，然后直接
Android 模拟器系统镜像和 AMD 处理器
我使用 AMD FX X6 6300 型处理器。 (它支持虚拟化，我的 BIOS 设置为 ON) 我安装了“英特尔 x86 仿真器加速器”。当我尝试运行 Intel 加速器设置时，我得到该设置无法安装

首页

博学

6Ren·AI

商城

c++ - `std::memory_order_acquire` 的语义是否需要 x86/x86_64 上的处理器指令？