multithreading - “full memory barrier”的反面是什么？-6ren

multithreading - “full memory barrier”的反面是什么？

转载作者：行者123 更新时间：2023-12-04 06:40:30

我有时会在有关内存排序的教程中看到“完全内存屏障”一词，我认为这意味着:

如果我们有以下指示:

instruction 1
full_memory_barrier
instruction 2

然后，不允许将 instruction 1重新排序为低于 full_memory_barrier，并且不允许将 instruction 2重新排序为高于 full_memory_barrier。

但是，完全内存屏障的反义词是什么呢？我的意思是说有像“半内存屏障”之类的东西只能阻止CPU在一个方向上对指令重新排序吗？

如果存在这样的内存障碍，我看不到它的意义，我的意思是如果我们有以下说明:

instruction 1
memory_barrier_below_to_above
instruction 2

假设 memory_barrier_below_to_above是一个内存屏障，可以防止 instruction 2重新排序为上面的 memory_barrier_below_to_above，因此将不允许以下操作:

instruction 2
instruction 1
memory_barrier_below_to_above

但是将允许以下操作(这使这种类型的内存屏障毫无意义):

memory_barrier_below_to_above
instruction 2
instruction 1

最佳答案

http://preshing.com/20120710/memory-barriers-are-like-source-control-operations/解释了不同种类的障碍，例如LoadLoad或StoreStore。 StoreStore障碍仅阻止商店跨障碍重新排序，但负载仍会无序执行。

在实际的CPU上，任何包含StoreLoad的屏障也会阻塞其他所有事物，因此被称为“完全屏障”。 StoreLoad是最昂贵的一种，因为它意味着先清空存储缓冲区，然后才能从L1d缓存中读取以后的加载。

障碍示例:

           strong               weak
x86        mfence               none needed unless you're using NT stores
ARM        dmb sy               isb,  dmb st, dmb ish, etc.
POWER      hwsync               lwsync, isync, ...

ARM具有“内部”域和“外部可共享域”。我真的不知道这意味着什么，不必处理它，但是 this page记录了可用的不同形式的数据内存屏障。 dmb st只等待较早的存储完成，因此我认为这只是一个StoreStore障碍，因此对于C++ 11发行存储来说太弱了，C++ 11发行存储也需要对较早的加载进行排序以防止LoadStore重新排序。另请参见 C/C++11 mappings to processors:请注意，可以在每个商店周围使用完全屏障，或者在加载之前和商店之前使用屏障来实现seq-cst。不过，使负载便宜通常是最好的。

ARM ISB刷新指令缓存。 (ARM没有相干的i缓存，因此在将代码写入内存之后，需要一个ISB才能可靠地跳转到那里并将这些字节作为指令执行。)

POWER有很多可用的障碍，包括上面链接的Jeff Preshing文章中提到的轻重量(非全障碍)和重同步(全障碍)。

一个单向障碍是您从发行商店或获得负载的中获得的。关键部分末尾的发布存储(例如，解锁自旋锁)必须确保关键部分内部的加载/存储不会稍后出现，但是不必将后面的加载延迟到 lock=0变为全局可见。

Jeff Preshing也有关于此的文章: Acquire and Release semantics

“完全”与“部分”屏障术语通常不用于发布存储或获取负载的单向重新排序限制。实际的发布围栏(在C++ 11中为 std::atomic_thread_fence(std::memory_order_release))确实阻止双向存储的重新排序，这与特定对象上的发布存储不同。

这种微妙的区别在过去(甚至在专家之间!)也引起了困惑。 Jeff Preshing还有另一篇出色的文章对此进行了解释: Acquire and Release Fences Don't Work the Way You'd Expect。

没错，与商店或 cargo 无关的单向障碍不是很有用；这就是为什么这种事不存在的原因。 :P可以在一个方向上重新排序无穷远的距离，并使所有操作相互重新排序。

atomic_thread_fence(memory_order_release)到底是做什么的？

C11( n1570 Section 7.17.4 Fences)仅当在原子存储(松弛的或其他方式)对负载访问的同一对象使用释放栅栏时，才通过与获取负载或获取围栏创建同步关系来定义它。 (C++ 11具有基本相同的定义，但是在注释中与@EOF的讨论提出了C11版本。)

这个关于净效果的定义，而不是实现效果的机制，并不能直接告诉我们它允许或不允许做什么。例如，第3小节说

3) A release fence A synchronizes with an atomic operation B that performs an acquire operation on an atomic object M if there exists an atomic operation X such that A is sequenced before X, X modifies M, and B reads the value written by X or a value written by any side effect in the hypothetical release sequence X would head if it were a release operation

因此，在编写线程中，它是在谈论这样的代码:

stuff           // including any non-atomic loads/stores

atomic_thread_fence(mo_release)  // A
M=X                              // X
  // threads that see load(M, acquire) == X also see stuff

syncs-with表示从 M=X中看到值的线程(直接或间接通过释放序列)也看到了所有 stuff，并在没有Data Race UB的情况下读取了非原子变量。

这可以让我们说出允许/禁止的事情:

这是原子存储的两向障碍。它们无法在任何方向交叉，因此屏障在此线程的内存顺序中的位置受原子存储前后的限制。任何较早的存储区都可以是 stuff的 M的一部分，任何较后的存储区都可以是与获取负载(或负载+获取栅栏)同步的 M。

这是原子负载的单向屏障:较早的屏障需要保留在屏障之前，但较晚的可以保留在屏障之上。 M=X只能是商店(或RMW的商店部分)。

这是非原子负载/存储的单向屏障:非原子存储可以是 stuff的一部分，但不能是 X，因为它们不是原子的。可以允许稍后在此线程中进行的加载/存储在 M=X之前出现在其他线程中。 (如果在障碍之前和之后修改了非原子变量，则即使在与该障碍进行同步之后，也没有任何东西可以安全地读取它，除非读者还有一种方法可以阻止该线程继续运行并创建Data Race UB因此，编译器可以并且应该将 foo=1; fence(release); foo=2;重新排序为 foo=2; fence(release);，从而消除了已死的 foo=1存储区。但是将 foo=1下沉到障碍之后，仅在技术上是合法的，如果没有UB，什么都说不清。

作为一个实现细节，C11发行围栏可能比(例如，用于更多种编译时重新排序的2向屏障)强，但并不弱。在某些体系结构(如ARM)上，唯一足够强大的选择可能是完全障碍的asm指令。对于编译时重新排序的限制，编译器可能只是为了保持实现的简单性而不允许这些1向重新排序。

通常，这种组合的2向/1向特性仅对compile-time reordering 很重要。 CPU不会在原子存储与非原子存储之间进行区分。非原子的总是与宽松原子的asm指令相同(对于适合单个寄存器的对象)。

使内核等待直到全局可见的较早操作的CPU屏障指令通常是2路屏障。它们是根据在所有内核共享的内存的一致 View 中全局可见的操作来指定的，而不是C/C++ 11创建同步关系的样式。 (请注意，操作可能对其他线程全局可见，然后才对所有线程全局可见: Will two atomic writes to different locations in different threads always be seen in the same order by other threads?。
但是，只要在物理核心内避免重新排序的障碍，就可以恢复顺序一致性。)

C++ 11发行版围栏需要LoadStore + StoreStore障碍，但不需要LoadLoad。一个可以让您仅获得那2个但并非全部3个“便宜”障碍的CPU，将使整个障碍指令中的负载在一个方向上重新排序，同时在两个方向上阻止存储。

弱排序的SPARC实际上就是这样，并使用LoadStore等术语(这是Jeff Preshing在其文章中使用的术语)。 http://blog.forecode.com/2010/01/29/barriers-to-understanding-memory-barriers/显示了它们的用法。 (最近的SPARC使用TSO(总存储顺序)内存模型。我认为这就像x86，其中硬件给人以程序顺序发生内存操作错觉的感觉，除了StoreLoad重新排序。)

关于multithreading - “full memory barrier”的反面是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51013872/

文章推荐： actionscript-3 - AS3 : Rotation into Vector

文章推荐： cocos2d-iphone - 具有合成和 CCSpriteBatchNode 的游戏对象(续)

ubuntu - 错误 : ssl certificate doesn't exist:/home/rsvay/snap/barrier-kvm/2/. 本地/share/barrier/SSL/Barrier.pem
我是 Barrier-kvm 的常客。我最近将我的服务器升级到 Ubuntu 20.04 并开始收到错误“错误:ssl 证书不存在:/home/rsvay/snap/barrier-kvm/2/.lo
multithreading - 乱序执行和重新排序 : can I see what after barrier before the barrier?
根据维基百科:内存屏障，也称为 membar、内存栅栏或栅栏指令，是一种栅栏指令，它导致中央处理单元 (CPU) 或编译器对在屏障指令。这通常意味着在屏障之前发出的操作保证在屏障之后发出的操作之前执
c - 如何在没有相等迭代次数的while循环上使用omp barrier
我正在尝试使用omp来实现listranking问题(也称为快捷方式)，以使数组W的和为前缀。我不知道我是否正确使用了冲洗编译指示。而且我在编译时发出警告:“障碍区域可能不会紧密嵌套在工作共享，关
OpenGL Barrier() 函数和发散流控制
问题是否允许在发散流控制之后但在发散流控制之外使用 barrier()？详细信息在兼容 OpenGL 4.00 的计算着色器中，我正在做一些涉及发散(即非动态统一)分支语句的工作。稍后在同一个着
android - Barrier 不动的原因
我想制作一个看起来像这样的布局，但使用 Barrier: 所以我制作了以下 XML: 但是结果是这样的: Barrier 似乎没有向下移动。我做错了什么？
ios - 新任务不等待GCD Barriers
我了解了一些关于 GCD 障碍的知识并想检查这些信息(来自 Apple docs ): Any blocks submitted after the barrier block are not exe
c++ - 如何实现动态线程Boost::Barrier？
通常，线程屏障(即 boost::barrier)用一个整数初始化，该整数表示必须调用 boost::barrier::wait 的线程数 - 所有线程都在该点等待，直到满足条件，然后所有线程继续。
C 信号量和线程之间的 "barrier"
我正在尝试解决我们的操作系统教授在上一次考试中向我们展示的问题，以便为下一次考试做准备。问题是有两个线程同时执行并且可能在不同的时间内完成。一个特定的线程完成后，它需要阻塞直到另一个线程完成，然后它
tdd - 测试驱动开发 "Barriers to Entry"?
我正在研究测试驱动开发，其中一个讨论点是与 TDD 相关的“进入壁垒”。有没有人在这方面有任何经验，在您参与的任何项目中，由于进入阈值太高而决定不使用 TDD？据我所知，进入的唯一障碍是个人开发人员
c++ - 使用类成员函数初始化 std::barrier
如何使用类成员函数初始化 std::barrier ？ class CMyClass { private: void func() { } public: void start
java - 为自定义 Barrier 设计测试类
作为类(class)作业的一部分，我必须使用锁来实现自定义屏障类。为了测试我的 LockBarrier 类，我想出了以下测试代码。它工作正常，但我担心这是否是正确的方法。您能否建议我可以做的改进，特别
java - 'synchronized barriers' 是什么？
最近在看页面The JSR-133 Cookbook for Compiler Writers由 Doug Lea 关于 JSR 133: JavaTM Memory Model and Thread
c++ - 为什么我不能使用？
我想在我的 cpp 多线程代码中使用 std::experimental::barrier。但即使我写这样的代码: #include #include #include int main ()
c - MPI Barrier 不在循环中工作
我目前正在使用 MPI C 库，但是使用 C++ 编码，我知道 MPI_Barrier(MPI_COMM_WORLD) 函数会阻止调用者，直到通信器中的所有进程都调用它 , 如 documentati
c++ - omp 临界区后是否存在隐式 Barrier
在omp临界区之后是否存在隐式omp屏障例如，我可以将以下代码版本 1 修改为版本 2 吗？版本-1 int min = 100; #pragma omp parallel { int lo
swift - 并发队列上的 `.barrier` 是否应该立即变为事件状态？
我不确定这是否在 xcode8 beta 5 中崩溃了。看看这段代码。你认为它应该先打印“A”还是先打印“B”？ let q = DispatchQueue(label: "q", attribute
java - LoadLoad barrier 的真正作用是什么？
在 Java 中，当我们有两个线程共享以下变量时: int a; volatile int b; 如果线程 1 执行: a = 5; b = 6; 然后在这两条指令之间插入一个 StoreStore
c - 为什么 "barrier()"足以禁用或启用抢占？
从 Linux 内核代码中，我可以看到 preempt_enable() 和 preempt_disable() 除了 barrier() 之外什么都没有: #define preempt_disab
multithreading - “full memory barrier”的反面是什么？
我有时会在有关内存排序的教程中看到“完全内存屏障”一词，我认为这意味着: 如果我们有以下指示: instruction 1 full_memory_barrier instruction 2 然后，不
pytorch - torch.distributed.barrier() 如何工作
我已经阅读了我能找到的所有关于 torch.distributed.barrier() 的文档，但仍然无法理解它在 this script 中的使用方式并且非常感谢一些帮助。所以official d

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

multithreading - “full memory barrier”的反面是什么？