c++ - 为什么这个 `std::atomic_thread

c++ - 为什么这个 `std::atomic_thread_fence`有效

转载作者：行者123 更新时间：2023-12-02 02:39:43

31

4

首先，我想列出我对此的一些理解，如果我错了，请指正。

x86中的MFENCE可确保完全隔离

顺序一致性可防止对STORE-STORE，STORE-LOAD，LOAD-STORE和LOAD-LOAD重新排序

这是根据Wikipedia。

std::memory_order_seq_cst不保证阻止STORE-LOAD重新排序。

这是根据Alex's answer进行的，“对于较早的商店，负载可能会重新排序到不同的位置”(对于x86)，并且不会始终添加mfence。
std::memory_order_seq_cst是否指示顺序一致性？根据第2/3点，对我来说似乎不正确。 std::memory_order_seq_cst仅在以下情况下指示顺序一致性

至少将一个显式MFENCE添加到LOAD或STORE

LOAD(无围栏)和LOCK XCHG

LOCK XADD(0)和存储(无围栏)

否则仍可能有重新订购。

根据@LWimsey的评论，我在这里犯了一个错误，如果LOAD和STORE均为memory_order_seq_cst，则无需重新排序。 Alex可能指出了使用非原子或非SC的情况。

std::atomic_thread_fence(memory_order_seq_cst)总是生成全屏

这是根据Alex's answer。所以我总是可以用asm volatile("mfence" ::: "memory")替换std::atomic_thread_fence(memory_order_seq_cst)
这对我来说很奇怪，因为memory_order_seq_cst似乎在原子函数和篱笆函数之间的用法有很大不同。

现在，我进入实现 std::atomic_thread_fence的MSVC 2015标准库的头文件中的此代码

inline void _Atomic_thread_fence(memory_order _Order)
    {   /* force memory visibility and inhibit compiler reordering */
 #if defined(_M_ARM) || defined(_M_ARM64)
    if (_Order != memory_order_relaxed)
        {
        _Memory_barrier();
        }

 #else
    _Compiler_barrier();
    if (_Order == memory_order_seq_cst)
        {   /* force visibility */
        static _Uint4_t _Guard;
        _Atomic_exchange_4(&_Guard, 0, memory_order_seq_cst);
        _Compiler_barrier();
        }
 #endif
    }

所以我的主要问题是 _Atomic_exchange_4(&_Guard, 0, memory_order_seq_cst);如何创建完整的屏障 MFENCE，或者实际上做了什么来启用类似 MFENCE的等效机制，因为 _Compiler_barrier()在这里显然不足以构成完整的内存屏障，或者该语句的工作原理类似于第3点？

最佳答案

So my major question is how can _Atomic_exchange_4(&_Guard, 0, memory_order_seq_cst); create a full barrier MFENCE

这将编译为带有存储目标的 xchg指令。就像 mfence一样，这是一个完整的内存屏障(耗尽了存储缓冲区)。

在此之前和之后使用编译器障碍，也可以防止围绕它进行编译时重新排序。因此，可以防止任何方向的重新排序(对原子和非原子C++对象的操作)，从而使其足以执行ISO C++ atomic_thread_fence(mo_seq_cst) promise 的所有操作。

对于比seq_cst弱的顺序，只需要一个编译器屏障。 x86的硬件内存排序模型是程序顺序+具有存储转发功能的存储缓冲区。这对于 acq_rel足够强大，而编译器不会发出任何特殊的asm指令，而只是阻止编译时重新排序。 https://preshing.com/20120930/weak-vs-strong-memory-models/

脚注1 :足够用于std::atomic的目的。通过 lock指令对WC存储器中MOVNTDQA加载的排序不严格，而对MFENCE的排序不严格。

Which is a better write barrier on x86: lock+addl or xchgl?

Does lock xchg have the same behavior as mfence?-等同于std::atomic目的，但对于使用WC内存区域的设备驱动程序可能会有一些细微差别。和性能差异。值得注意的是on Skylake where mfence blocks OoO exec like lfence

Why is LOCK a full barrier on x86?

x86上的原子读-修改-写(RMW)操作仅在带有 lock前缀或 xchg with memory的情况下才可行，即使在机器代码中没有锁定前缀的情况下也是如此。锁定前缀的指令(或带有mem的xchg)始终是完整的内存屏障。

用 lock add dword [esp], 0之类的指令代替 mfence是一种众所周知的技术。 (并且在某些CPU上性能更好。) 该MSVC代码是相同的想法，但是它代替了对堆栈指针所指向的任何对象的无操作，而是对虚拟变量执行了 xchg。实际上，这并不重要，但是只有当前内核访问过并且已经在缓存中处于高温状态的缓存行才是性能的最佳选择。

使用所有内核将争夺访问的static共享变量是最糟糕的选择。这个代码太糟糕了! 不必与其他内核进行相同的缓存行交互，以控制此内核在其自己的L1d缓存上的操作顺序。这完全是傻瓜。 MSVC显然仍在其 std::atomic_thread_fence()的实现中使用了这种可怕的代码，即使对于保证 mfence可用的x86-64，也是如此。 ( Godbolt with MSVC 19.14)

如果您正在执行seq_cst存储，则可以选择 mov + mfence(gcc执行此操作)，或者使用单个 xchg进行存储和屏障操作(clang和MSVC这样做，因此代码生成很好，没有共享的虚拟变量)。

这个问题的大部分早期部分(陈述“事实”)似乎是错误的，并且包含一些误解或误导性内容，甚至没有错。

std::memory_order_seq_cst makes no guarantee to prevent STORE-LOAD reorder.

C++保证使用完全不同的模型进行订购，在该模型中，从发布存储中获取看到值的负载与它“同步”，并保证C++源代码中的后续操作在发布存储之前可以查看代码中的所有存储。

它还保证即使在不同对象之间，所有seq_cst操作的总顺序也相同。 (较弱的订单允许线程在全局可见之前重新加载其自己的商店，即商店转发。这就是为什么只有seq_cst才需要消耗商店缓冲区的原因。它们还允许IRIW重新排序。 Will two atomic writes to different locations in different threads always be seen in the same order by other threads?)

StoreLoad重新排序之类的概念基于以下模型:

所有内核间通信都是通过将存储提交到与缓存相关的共享内存中进行的

重排序发生在其自身对缓存的访问之间的一个内核内。例如通过存储缓冲区延迟存储可见性，直到x86允许以后加载。 (除了核心可以通过商店转发尽早看到自己的商店。)

就此模型而言，seq_cst确实需要在seq_cst存储和以后的seq_cst加载之间的某个点上耗尽存储缓冲区。实现此目的的有效方法是在seq_cst存储之后放置一个完整的屏障。 (而不是在每次seq_cst加载之前。便宜的负载比便宜的存储更重要。)

在像AArch64这样的ISA上，有加载获取指令和存储释放指令，它们实际上具有顺序释放的语义，这与x86加载/存储“仅”是常规发行版不同。 (因此，AArch64 seq_cst不需要单独的屏障；微体系结构可能会延迟耗尽存储缓冲区，除非/直到执行加载获取，而仍然没有将存储释放提交给L1d缓存。)其他ISA通常需要完整的屏障在seq_cst存储之后清空存储缓冲区的指令。

当然，与 seq_cst加载或存储操作不同，甚至AArch64都需要对 seq_cst栅栏使用完整的屏障指令。

std::atomic_thread_fence(memory_order_seq_cst) always generates a full-barrier

实际上是。

So I can always replace asm volatile("mfence" ::: "memory") with std::atomic_thread_fence(memory_order_seq_cst)

实际上，是的，但是从理论上讲，一种实现可能会允许围绕 std::atomic_thread_fence的非原子操作进行一些重新排序，并且仍然符合标准。永远是一个很强的词。

仅当涉及 std::atomic加载或存储操作时，ISO C++才能保证任何内容。 GNU C++允许您将自己的原子操作移出 asm("" ::: "memory")编译器障碍(acq_rel)和 asm("mfence" ::: "memory")完整障碍。将其转换为ISO C++ signal_fence和thread_fence将留下一个“便携式” ISO C++程序，该程序具有数据争用UB，因此不能保证任何事情。

(尽管请注意，滚动自己的原子应该至少使用 volatile，而不仅仅是障碍，以确保编译器不会产生多个负载，即使您避免了将负载从循环中提升的明显问题。 Who's afraid of a big bad optimizing compiler?)。

始终记住，实现的作用必须至少与ISO C++保证的作用一样强。这通常最终变得更强大。

关于c++ - 为什么这个 `std::atomic_thread_fence`有效，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48316830/

31

4

0

文章推荐： java - 优化 Spring RestControllerAdvice 多个异常

文章推荐： google-maps-api-3 - 在 Google Maps API v3 中启用新的 GL 渲染？

文章推荐： C# 以非管理员权限运行进程

文章推荐： java - 为什么程序没有通过我的@override 类

javascript - .on ('click' ) 有效， .css ('display' ,'block' ) 有效，但不在一起
我遇到了一个奇怪的问题。我有这个: $(document).ready(function () {
Java URL java.net.ConnectException 错误(Ping 有效，其他 URL 有效)
我正在编写一个程序，它从列表中读取一些 ID，从中找出不同的 URL，然后将图像保存到我的 C: 驱动器中。如果我在浏览器中导航到图像 URL，它们就会起作用。此外，如果我尝试从不同的服务器获取图像
java - 奇怪的 httpPost 行为(可能与 json、auth、代理相关)GET 有效，POST 有效，但没有代理就不行(部分解决)
我编写了一个 REST WCF RIA Silverlight 4.0 兼容服务，我可以从 javascript + jQuery.1.4.2.js + JSON2.js(当然，还可以从 .NET 4
有效 32 位有符号整数的正则表达式
我很确定这个网站实际上还没有得到回答。一劳永逸地，与 32 位有符号整数范围内的数字字符串匹配的最小正则表达式是什么，范围是 -2147483648至 2147483647 . 我必须使用正则表达式进
r - (有效)合并随机键控子集
我有两个data.table；我想从那些与键匹配的元素中随机分配一个元素。我现在这样做的方式相当慢。让我们具体点；这是一些示例数据: dt1<-data.table(id=sample(letter
celery 有效，但与花无效
我已经安装了 celery 、RabitMQ 和花。我可以浏览到花港。我有以下简单的工作人员，我可以将其附加到 celery 并从 python 程序调用: # -*- coding: utf-8 -
ScalaCheck 有效/无效的测试边界
我正在使用 ScalaCheck 在 ScalaTest 中进行一些基于属性的测试。假设我想测试一个函数，f(x: Double): Double仅针对 x >= 0.0 定义的, 并返回 NaN对于
delphi - 有效 IMAGE_DOS_SIGNATURE
我想检查文件是否具有有效的 IMAGE_DOS_SIGNATURE (MZ) function isMZ(FileName : String) : boolean; var Signature: W
java - 为什么通过引用比较整数 (==) 有效？
在 Herbert Schildt 的“Java:完整引用，第 9 版”中，有一个让我有点困惑的例子。它的关键点我无法理解可以概括为以下代码: class Test { public stat
php - 为什么 for(;;) 有效？
我在工作中查看了一些代码，发现了一些我以前没有遇到过的东西: for (; ;) { // Some code here break; } 我们一直调用包含这个的函数，我最近才进去看看它是
java - 为什么通过引用比较整数 (==) 有效？
在 Herbert Schildt 的“Java:完整引用，第 9 版”中，有一个让我有点困惑的例子。它的关键点我无法理解可以概括为以下代码: class Test { public stat
python - 在矩阵的一维中进行洗牌(有效)？
我试图编写一个函数，获取 2D 点矩阵和概率 p 并以概率 p 更改或交换每个点坐标所以我问了一个question我试图使用二进制序列作为特定矩阵 swap_matrix=[[0,1],[1,0]]
c# - 为什么这个无效的文件路径//有效？
这个问题在这里已经有了答案: Using / or \\ for folder paths in C# (5 个答案) 关闭 7 年前。我在某个Class1中有这个功能: public v
postgresql - 删除重复记录(有效)
PostgreSQL 10.4 我有一张 table : Column | Type ------------------------- id | integer| title
sql - 有效/简单地计算同一数据集的不同范围
我正在 Postgresql 中编写一个函数，它将返回一些针对特定时区(输入)计算的指标。示例结果: 主要问题是这只是一个指标。我需要从其他表中获取其他 9 个指标。对于实现此目标的更简洁的方法有
python - 模拟从袋子中取出弹珠而不更换(有效)
我需要在 python 中模拟超几何分布(用于不替换采样元素的花哨词)。设置:有一个装满人口许多弹珠的袋子。弹珠有两种类型，红色和绿色(在以下实现中，弹珠表示为 True 和 False)。从袋子中
css - 有效/无效类未添加到预填充文本字段
我正在使用 MaterializeCSS 框架并动态填充文本输入。我遇到的一个问题是，在我关注该字段之前，valid 和 invalid css 类不会添加到我的字段中。即使我调用 M.update
CSS - 重叠 - 有效
是否有重叠 2 个 div 的有效方法。我有以下内容，但无法让它们重叠。 #top-border{width:100%; height:60px; background:url(image.jpg)
c++ - 为什么需要重新定义固定大小的静态数组/有效？
我希望你们中的一位能向我解释为什么编译器要求我在编译单元中重新定义一个静态固定长度数组，尽管我已经在头文件中这样做了。这是一个例子: 我的类.h: #ifndef MYCLASS_H #define
Python 分布式计算(有效)
我正在使用旧线程发布试图解决相同问题的新代码。什么是安全 pickle ？ this? socks .py from socket import socket from socket import A

首页

博学

6Ren·AI

商城

c++ - 为什么这个 `std::atomic_thread_fence`有效