- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
首先,我想列出我对此的一些理解,如果我错了,请指正。
MFENCE
可确保完全隔离std::memory_order_seq_cst
不保证阻止STORE-LOAD重新排序。std::memory_order_seq_cst
是否指示顺序一致性?根据第2/3点,对我来说似乎不正确。 std::memory_order_seq_cst
仅在以下情况下指示顺序一致性MFENCE
添加到LOAD
或STORE
LOAD
和STORE
均为memory_order_seq_cst
,则无需重新排序。 Alex可能指出了使用非原子或非SC的情况。
std::atomic_thread_fence(memory_order_seq_cst)
总是生成全屏asm volatile("mfence" ::: "memory")
替换std::atomic_thread_fence(memory_order_seq_cst)
memory_order_seq_cst
似乎在原子函数和篱笆函数之间的用法有很大不同。 std::atomic_thread_fence
的MSVC 2015标准库的头文件中的此代码
inline void _Atomic_thread_fence(memory_order _Order)
{ /* force memory visibility and inhibit compiler reordering */
#if defined(_M_ARM) || defined(_M_ARM64)
if (_Order != memory_order_relaxed)
{
_Memory_barrier();
}
#else
_Compiler_barrier();
if (_Order == memory_order_seq_cst)
{ /* force visibility */
static _Uint4_t _Guard;
_Atomic_exchange_4(&_Guard, 0, memory_order_seq_cst);
_Compiler_barrier();
}
#endif
}
_Atomic_exchange_4(&_Guard, 0, memory_order_seq_cst);
如何创建完整的屏障
MFENCE
,或者实际上做了什么来启用类似
MFENCE
的等效机制,因为
_Compiler_barrier()
在这里显然不足以构成完整的内存屏障,或者该语句的工作原理类似于第3点?
最佳答案
So my major question is how can
_Atomic_exchange_4(&_Guard, 0, memory_order_seq_cst);
create a full barrier MFENCE
xchg
指令。就像
mfence
一样,这是一个完整的内存屏障(耗尽了存储缓冲区)。
atomic_thread_fence(mo_seq_cst)
promise 的所有操作。
acq_rel
足够强大,而编译器不会发出任何特殊的asm指令,而只是阻止编译时重新排序。
https://preshing.com/20120930/weak-vs-strong-memory-models/
lock
指令对WC存储器中MOVNTDQA加载的排序不严格,而对MFENCE的排序不严格。
mfence
blocks OoO exec like lfence
lock
前缀或
xchg
with memory的情况下才可行,即使在机器代码中没有锁定前缀的情况下也是如此。锁定前缀的指令(或带有mem的xchg)始终是完整的内存屏障。
lock add dword [esp], 0
之类的指令代替
mfence
是一种众所周知的技术。 (并且在某些CPU上性能更好。)
该MSVC代码是相同的想法,但是它代替了对堆栈指针所指向的任何对象的无操作,而是对虚拟变量执行了
xchg
。实际上,这并不重要,但是只有当前内核访问过并且已经在缓存中处于高温状态的缓存行才是性能的最佳选择。
static
共享变量是最糟糕的选择。这个代码太糟糕了! 不必与其他内核进行相同的缓存行交互,以控制此内核在其自己的L1d缓存上的操作顺序。这完全是傻瓜。 MSVC显然仍在其
std::atomic_thread_fence()
的实现中使用了这种可怕的代码,即使对于保证
mfence
可用的x86-64,也是如此。 (
Godbolt with MSVC 19.14)
mov
+
mfence
(gcc执行此操作),或者使用单个
xchg
进行存储和屏障操作(clang和MSVC这样做,因此代码生成很好,没有共享的虚拟变量)。
std::memory_order_seq_cst
makes no guarantee to prevent STORE-LOAD reorder.
seq_cst
加载或存储操作不同,甚至AArch64都需要对
seq_cst
栅栏使用完整的屏障指令。
std::atomic_thread_fence(memory_order_seq_cst)
always generates a full-barrier
So I can always replace
asm volatile("mfence" ::: "memory")
withstd::atomic_thread_fence(memory_order_seq_cst)
std::atomic_thread_fence
的非原子操作进行一些重新排序,并且仍然符合标准。永远是一个很强的词。
std::atomic
加载或存储操作时,ISO C++才能保证任何内容。 GNU C++允许您将自己的原子操作移出
asm("" ::: "memory")
编译器障碍(acq_rel)和
asm("mfence" ::: "memory")
完整障碍。将其转换为ISO C++ signal_fence和thread_fence将留下一个“便携式” ISO C++程序,该程序具有数据争用UB,因此不能保证任何事情。
volatile
,而不仅仅是障碍,以确保编译器不会产生多个负载,即使您避免了将负载从循环中提升的明显问题。
Who's afraid of a big bad optimizing compiler?)。
关于c++ - 为什么这个 `std::atomic_thread_fence`有效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48316830/
我遇到了一个奇怪的问题。我有这个: $(document).ready(function () {
我正在编写一个程序,它从列表中读取一些 ID,从中找出不同的 URL,然后将图像保存到我的 C: 驱动器中。 如果我在浏览器中导航到图像 URL,它们就会起作用。此外,如果我尝试从不同的服务器获取图像
我编写了一个 REST WCF RIA Silverlight 4.0 兼容服务,我可以从 javascript + jQuery.1.4.2.js + JSON2.js(当然,还可以从 .NET 4
我很确定这个网站实际上还没有得到回答。一劳永逸地,与 32 位有符号整数范围内的数字字符串匹配的最小正则表达式是什么,范围是 -2147483648至 2147483647 . 我必须使用正则表达式进
我有两个data.table;我想从那些与键匹配的元素中随机分配一个元素。我现在这样做的方式相当慢。 让我们具体点;这是一些示例数据: dt1<-data.table(id=sample(letter
我已经安装了 celery 、RabitMQ 和花。我可以浏览到花港。我有以下简单的工作人员,我可以将其附加到 celery 并从 python 程序调用: # -*- coding: utf-8 -
我正在使用 ScalaCheck 在 ScalaTest 中进行一些基于属性的测试。假设我想测试一个函数,f(x: Double): Double仅针对 x >= 0.0 定义的, 并返回 NaN对于
我想检查文件是否具有有效的 IMAGE_DOS_SIGNATURE (MZ) function isMZ(FileName : String) : boolean; var Signature: W
在 Herbert Schildt 的“Java:完整引用,第 9 版”中,有一个让我有点困惑的例子。它的关键点我无法理解可以概括为以下代码: class Test { public stat
我在工作中查看了一些代码,发现了一些我以前没有遇到过的东西: for (; ;) { // Some code here break; } 我们一直调用包含这个的函数,我最近才进去看看它是
在 Herbert Schildt 的“Java:完整引用,第 9 版”中,有一个让我有点困惑的例子。它的关键点我无法理解可以概括为以下代码: class Test { public stat
我试图编写一个函数,获取 2D 点矩阵和概率 p 并以概率 p 更改或交换每个点坐标 所以我问了一个question我试图使用二进制序列作为特定矩阵 swap_matrix=[[0,1],[1,0]]
这个问题在这里已经有了答案: Using / or \\ for folder paths in C# (5 个答案) 关闭 7 年前。 我在某个Class1中有这个功能: public v
PostgreSQL 10.4 我有一张 table : Column | Type ------------------------- id | integer| title
我正在 Postgresql 中编写一个函数,它将返回一些针对特定时区(输入)计算的指标。 示例结果: 主要问题是这只是一个指标。我需要从其他表中获取其他 9 个指标。 对于实现此目标的更简洁的方法有
我需要在 python 中模拟超几何分布(用于不替换采样元素的花哨词)。 设置:有一个装满人口许多弹珠的袋子。弹珠有两种类型,红色和绿色(在以下实现中,弹珠表示为 True 和 False)。从袋子中
我正在使用 MaterializeCSS 框架并动态填充文本输入。我遇到的一个问题是,在我关注该字段之前,valid 和 invalid css 类不会添加到我的字段中。 即使我调用 M.update
是否有重叠 2 个 div 的有效方法。 我有以下内容,但无法让它们重叠。 #top-border{width:100%; height:60px; background:url(image.jpg)
我希望你们中的一位能向我解释为什么编译器要求我在编译单元中重新定义一个静态固定长度数组,尽管我已经在头文件中这样做了。这是一个例子: 我的类.h: #ifndef MYCLASS_H #define
我正在使用旧线程发布试图解决相同问题的新代码。什么是安全 pickle ? this? socks .py from socket import socket from socket import A
我是一名优秀的程序员,十分优秀!