c++ - 在C++ 11中是否有任何等于asm (“”::: “memory”)的编译器障碍？-6ren

c++ - 在C++ 11中是否有任何等于asm (“”::: “memory”)的编译器障碍？

转载作者：太空狗更新时间：2023-10-29 20:21:55

27

4

我的测试代码如下，我发现只有memory_order_seq_cst禁止编译器重新排序。

#include <atomic>

using namespace std;

int A, B = 1;

void func(void) {
    A = B + 1;
    atomic_thread_fence(memory_order_seq_cst);
    B = 0;
}

其他选择，例如 memory_order_release， memory_order_acq_rel根本不会产生任何编译器障碍。

我认为它们必须使用原子变量，如下所示。

#include <atomic>

using namespace std;

atomic<int> A(0);
int B = 1;

void func(void) {
    A.store(B+1, memory_order_release);
    B = 0;
}

但是我不想使用原子变量。同时，我认为“asm(”“:::” memory“)”的级别太低。

还有什么更好的选择吗？

最佳答案

回复:您的编辑:

But I do not want to use atomic variable.

为什么不？如果出于性能原因，请将它们与 memory_order_relaxed和 atomic_signal_fence(mo_whatever)一起使用，以阻止编译器重新排序，而不会产生任何运行时开销，除了编译器障碍可能会阻止某些编译时优化外，具体取决于周围的代码。

如果是由于其他原因，那么 atomic_signal_fence可能会为您提供恰好在目标平台上工作的代码。我怀疑它确实对非 atomic<>加载和/或存储进行排序，因此它甚至可能有助于避免C++中的数据争用未定义行为。

足够做什么？

不管有什么障碍，如果两个线程同时运行此函数，则由于并发访问non- atomic<>变量，您的程序将具有“未定义行为”。因此，此代码唯一有用的方法是，如果您要与在同一线程中运行的信号处理程序进行同步。

这也与要求“编译器屏障”相一致，仅防止在编译时进行重新排序，因为乱序执行和内存重新排序始终会保留单个线程的行为。因此，您永远不需要额外的障碍说明来确保按程序顺序看到自己的操作，只需要在编译时停止编译器的重新排序即可。参见Jeff Preshing的文章: Memory Ordering at Compile Time

这就是 atomic_signal_fence 代表。您可以将其与任何 std::memory_order一起使用，就像thread_fence一样，以获得不同的屏障强度，并且仅阻止需要阻止的优化。

... atomic_thread_fence(memory_order_acq_rel) did not generate any compiler barrier at all!

完全错误，有几种方式。
atomic_thread_fence是编译器障碍，加上任何必需的运行时障碍，以限制加载/存储对其他线程可见的顺序来限制重新排序。

我猜您的意思是，当您查看x86的asm输出时，它没有发出任何屏障指令。诸如x86的MFENCE之类的指令不是“编译器壁垒”，它们是运行时内存壁垒，甚至可以防止在运行时对StoreLoad进行重新排序。 (这是x86允许的唯一重新排序。只有在使用弱序(NT)存储(例如 MOVNTPS ( _mm_stream_ps ))时才需要SFENCE和LFENCE。)

在像ARM这样的弱排序ISA上，thread_fence(mo_acq_rel)不是免费的，而是编译为指令。 gcc5.4使用 dmb ish。 (请参阅 Godbolt compiler explorer)。

编译器屏障仅阻止编译时重新排序，而不必阻止运行时重新排序。因此，即使在ARM上， atomic_signal_fence(mo_seq_cst)也不会编译为任何指令。

足够弱的屏障允许编译器在需要时先将存储区中的 B进行存储，然后再存储在 A中，但是gcc碰巧决定仍然以源顺序进行存储，即使使用thread_fence(mo_acquire)(也不应该与其他存储区一起对存储进行排序)商店)。

因此，此示例并未真正测试某些东西是否成为编译器障碍。

来自gcc的奇怪编译器行为，例如与编译器障碍不同的示例:

See this source+asm on Godbolt。

#include <atomic>
using namespace std;
int A,B;

void foo() {
  A = 0;
  atomic_thread_fence(memory_order_release);
  B = 1;
  //asm volatile(""::: "memory");
  //atomic_signal_fence(memory_order_release);
  atomic_thread_fence(memory_order_release);
  A = 2;
}

这可以按照您期望的方式用clang编译:thread_fence是StoreStore的障碍，因此A = 0必须在B = 1之前发生，并且不能与A = 2合并。

    # clang3.9 -O3
    mov     dword ptr [rip + A], 0
    mov     dword ptr [rip + B], 1
    mov     dword ptr [rip + A], 2
    ret

但是使用gcc时，屏障不会起作用，并且asm输出中仅存在A的最终存储。

    # gcc6.2 -O3
    mov     DWORD PTR B[rip], 1
    mov     DWORD PTR A[rip], 2
    ret

但是使用 atomic_signal_fence(memory_order_release)，gcc的输出与clang匹配。 因此，atomic_signal_fence(mo_release)具有我们所期望的屏障效果，但是比seq_cst弱的atomic_thread_fence根本不充当编译器屏障。

这里的一种理论是，gcc知道多个线程写入非 atomic<>变量是正式的Undefined Behavior。这并没有太多用处，因为如果 atomic_thread_fence用于与信号处理程序同步，它仍然可以工作，它比必要的要强大。

顺便说一句，使用 atomic_thread_fence(memory_order_seq_cst)，我们得到了预期的结果

    # gcc6.2 -O3, with a mo_seq_cst barrier
    mov     DWORD PTR A[rip], 0
    mov     DWORD PTR B[rip], 1
    mfence
    mov     DWORD PTR A[rip], 2
    ret

即使只有一个障碍，我们也能做到这一点，这仍然允许A = 0和A = 2存储一个接一个地发生，因此允许编译器将它们合并成一个障碍。 (观察者可能看不到单独的A = 0和A = 2值，这是可能的顺序，因此编译器可以确定总是发生这种情况)。不过，当前的编译器通常不会进行这种优化。请参阅我对 Can num++ be atomic for 'int num'?的回答末尾的讨论。

关于c++ - 在C++ 11中是否有任何等于asm (“”::: “memory”)的编译器障碍？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40579342/

27

4

0

文章推荐： c++ - 使用算术运算符时禁止隐式转换

文章推荐： c++ - 软件预取手册说明合理时的方案

文章推荐： C# - 使用 SSL 保护 `sockets`

文章推荐： python - 使用 numpy 读取 csv 文件的主要内存问题

c++ - 内存对齐 - Sparc(Sun) cc 编译器、Intel(Linux) g++ 编译器、Intel(Windows) MVSC 编译器
我的问题由两部分组成。我注意到使用 cc 编译器的 sparc(sun) 上的 memalign(block_size,bytes) 不检查字节是否为 2 的幂，这与使用 mvsc 编译器的 int
c# - 什么是好的 C# 编译器-编译器/解析器生成器？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 6 年前。
java - Maven 无法定位 Javac 编译器 - 无法在 : 中定位 Javac 编译器
当我尝试在我的 gwt-maven Projekt 上进行 maven-install 时，我得到了这个错误: [ERROR] Failed to execute goal org.apache.ma
c# - 如何使用 csc(C# 编译器)或 dmcs(mono C# 编译器)生成 IL 源代码？
gcc 有一个选项 -s 来生成汇编源代码。 csc(MS C# 编译器)或 dmcs(mono C# 编译器)是否等价？我的意思是那些编译器是否提供了一个选项来生成可以读取而不是执行二进制文件的 I
c - Matlab simulink 无法找到 Stateflow 和 MATLAB Function 模块所需的 C 编译器。使用 'mex -setup' 选择支持的 C 编译器
我在 matlab simulink 中有一个模型。我把matlab安装在D盘了。当我运行模型时，出现以下错误: Unable to locate a C-compiler required by S
c++ - Visual Studio 2012 : Compiler setup (possible to use Compiler from SDK eg. VC++2008-编译器 VC++2010-编译器)
我非常喜欢 Visual Studio 2012，因为 GUI 非常快速和灵活。问题是我需要 VS2010 的 VC++-Compiler。在 VS 2012 中设置旧的编译器、SDK 有什么可能吗？
编译器/语言运行时与中间件
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
"if"语句的代码生成 - 编译器
我正在为类似 C 的语言开发编译器，但在语义分析和代码生成阶段遇到了一些困难。我的问题如下:1) 对于 if 语句，语法如下: if (expression) then statement1; sta
PHP解释器/编译器
我想了解 php 编译器/解释器的工作原理。我试图下载 php 源代码并试图了解它是如何工作的。我找不到合适的文档。如果有人可以阐明制作 php 编译器的模块以及 apache 服务器如何使用 ph
python 编译器
我有一些关于 python 的问题为什么没有 python 编译器来创建本地代码？我找到了 py2exe 等，但它们只是随附了一个 python 解释器，因此，它又是执行代码的解释器。是否无法创建
Java虚拟机JVM性能优化（二）:编译器
本文将是JVM 性能优化系列的第二篇文章(第一篇：传送门)，Java 编译器将是本文讨论的核心内容。本文中，作者（Eva Andreasson）首先介绍了不同种类的编译器，并对客户端编译，服务器
flash - ActionScript 编译器
在 *nix 之类的系统或适当的工具包下是否有任何用于 ActionScript 3 的编译器来处理 Flash？最佳答案 Flex SDK编译器 — mxmlc — 还将编译普通的 ActionS
cmake - 让CMake不检测C++编译器
我正在做一个C项目。但是其他人告诉我，由于没有C++编译器，所以无法构建它。我不知道如何禁用C++的检测。这该怎么做？最佳答案检测C和C++工具链是CMake的默认行为。要禁用此行为，您需要手动
用于数学的 JIT 编译器
我正在寻找可以嵌入到我的程序中的 JIT 编译器或小型编译器库。我打算用它来编译动态生成的执行复数运算的代码。生成的代码在结构上非常简单:没有循环，没有条件，但它们可能很长(由 GCC 编译时只有几
.NET 编译器——调试与发布
多年来，我一直在 VB.NET 中使用 DEBUG 编译器常量将消息写入控制台。我也一直在以类似的方式使用 System.Diagnostics.Debug.Write。我一直认为，当 RELEASE
architecture - 编译器——前端后端
我了解编译器的前端和后端结构。但是，我不确定为什么编译器经常分为前端和后端。我相信有很多原因，你能给我几个吗？因为，大多数书籍/网站会告诉您它们是什么，但无法告诉您原因! 谢谢你。最佳答案前端处理
Javascript 编译器/依赖管理器？
我有很多 JS 文件。其中一些相互依赖。其中许多依赖于 jQuery。我需要一种工具，它可以接受一个文件作为参数，传递地获取其所有依赖项，并以正确的顺序将它们编译成一个文件(基于依赖项) 依赖信息并不
parsing - 编译器，找到语法的第一组
我正在阅读著名的紫龙书第二版，但无法从第 65 页获取有关创建第一组的示例: 我们有以下语法(终端以粗体显示): stmt → expr; | if ( expr ) stmt | for ( opt
C#(仅限语言)编译器
我正在寻找将 C# 语法编译为 native 代码(或者可能编译为 C++？)的选项。我对拥有正式成为该语言一部分的所有库不感兴趣，只是能够像编写 C++ 程序一样编写程序，但使用语言结构，例如部分类
编译器 -march 标志基准测试？
编译器(例如:gcc)中的 -march 标志真的很重要吗？如果我使用 -march=my_architecture 而不是 -march=i686 编译所有程序和内核，会不会更快最佳答案是的，

首页

博学

6Ren·AI

商城

c++ - 在C++ 11中是否有任何等于asm (“”::: “memory”)的编译器障碍？