multithreading - 锁定指令是否在弱顺序访问之间提供了障碍？-6ren

multithreading - 锁定指令是否在弱顺序访问之间提供了障碍？

转载作者：行者123 更新时间：2023-12-04 17:15:22

24

4

在 x86 上，lock - 前缀指令，例如 lock cmpxchg除了原子操作之外，还提供屏障语义:对于回写内存区域的正常内存访问，读取和写入不会跨 lock 重新排序。 - 前缀说明，根据英特尔 SDM 第 3 卷第 8.2.2 节:

Reads or writes cannot be reordered with I/O instructions, locked instructions, or serializing instructions.

本节仅适用于回写存储器类型。在同一个列表中，您会发现一个异常(exception)，它指出弱排序的商店没有被排序:

Reads are not reordered with other reads.

Writes are not reordered with older reads.

Writes to memory are not reordered with other writes, with the following exceptions: —

streaming stores (writes) executed with the non-temporal move instructions (MOVNTI, MOVNTQ, MOVNTDQ, MOVNTPS, and MOVNTPD); and —

string operations (see Section 8.2.4.1).

请注意，列表中任何其他项目中的非临时指令没有异常(exception)，例如，在引用锁定前缀指令的项目中。

在指南的其他各个部分中，提到了 mfence和/或 sfence当使用弱排序(非时间)指令时，指令可用于对内存进行排序。这些部分一般不提 lock - 前缀指令作为替代。

所有让我不确定的事情:做 lock - 前缀指令提供与 mfence 相同的完整屏障在 WB 内存上提供弱排序(非时间)指令？同样的问题再次适用，但适用于对 WC 内存的任何类型的访问。

最佳答案

在所有 64 位 AMD 处理器上，MFENCE是一个完全序列化的指令，而锁定前缀的指令则不是。但是，两者都根据 AMD 手册 V2 7.4.2 序列化所有内存访问:

All previous loads and stores complete to memory or I/O space before a memory access for an I/O, locked or serializing instruction is issued.

All loads and stores associated with the I/O and locked instructions complete to memory (no buffered stores) before a load or store from a subsequent instruction is issued.

没有与这些指令的序列化属性相关的异常(exception)或错误。

从英特尔手册和文档中可以清楚地看出，它们都将所有存储序列化，没有异常(exception)或相关错误。 MFENCE还序列化了所有负载，其中记录了大多数基于 Skylake、Kaby Lake 和 Coffee Lake 微体系结构的处理器的勘误表，其中指出 MOVNTDQA来自 WC 内存可能更早通过 MFENCE指示。此外，许多基于 Nehalem、Sandy Bridge、Ivy Bridge、Haswell、Broadwell、Skylake、Kaby Lake、Coffee Lake 和 Silvermont 微架构的处理器都有一个勘误表，上面写着 MOVNTDQA来自 WC 内存的数据可能会传递更早的锁定指令。基于 Core、Westmere、Sunny Cove 和 Goldmont 微体系结构的处理器没有此勘误表。

引用 Necrolis 的回答说，锁定前缀可能不会序列化引用 Pentium 4 处理器上弱排序内存类型的加载操作。我的理解是，这看起来像是奔腾 4 处理器中的一个错误，它不适用于任何其他处理器。虽然值得注意的是，它没有记录在奔腾 4 处理器的规范更新文档中。

@PeterCordes 的 experiments表明，在 Skylake 上，锁定指令似乎并没有阻止 ALU 指令在 mfence 时乱序执行。确实序列化 ALU 指令(可能与 lfence 的行为相同 + 像锁定指令一样的存储缓冲区刷新)。但是，我认为这是一个实现细节。

关于multithreading - 锁定指令是否在弱顺序访问之间提供了障碍？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50280857/

24

4

0

文章推荐： r - 如何在数据框中仅添加缺少的日期

文章推荐： azure - CredSSP 加密 Oracle 修复错误

文章推荐： docker - 使用新代码更新 docker 镜像

文章推荐： r - 如何将多个变量的值与查找表中的变量匹配？

c - 障碍，获取和获取线
我正在尝试从标准输入中获取一行。据我所知，我们永远不应该使用gets的手册页中所说的gets: Never use gets(). Because it is impossible to tell w
x86 - 障碍/围栏和获取、释放语义是如何在微架构上实现的？
很多问题SO和文章/书籍，例如https://mirrors.edge.kernel.org/pub/linux/kernel/people/paulmck/perfbook/perfbook.201
javascript - Coffeescript 静态分析/静态类型检查 - 障碍
我认为 Coffeescript 是一门很棒的语言!我正在寻找一些将静态分析添加到 Coffeescript 的项目/问题/功能。然而，经过一番搜索后，我发现 Coffeescript faq和 th
SQL 障碍 - SQL Server 2008
以下查询返回过去 12 个月(针对特定客户)每周的订单总量: SELECT DATEPART(year, orderDate) AS [year], DATEPART(month, or
ios - GameplayKit GKMeshGraph 障碍 bug？
我觉得这可能是一个错误，任何人都可以重现或看到我做事方式的一些错误。我正在尝试将 GKPolygonObstacle 添加到 iOS 或 macOS Playground 中的 GKMeshGrap
swift - 使用 SKSpriteNode physicsBody 创建墙/障碍
我的 SKSpriteKit 应用程序中有一个单独的“Floor”类。当我第一次创建这个类时，我使用在整个框架周围设置了一个屏障 self.physicsBody = SKPhysicsBody(e
r - Gamma 障碍(两部分)模型和零膨胀 Gamma 模型之间有区别吗？
我有我正在尝试建模的半连续数据(许多精确的零和连续的正结果)。我从 Zuur 和 Ieno 的 R 中零膨胀模型初学者指南中学到了大量关于零质量的建模数据，它区分了零膨胀 Gamma 模型和他们所描述
c++ - 如何在C++ 11普通存储(导出)和装入(导入)障碍(栅栏)中表达？
以下代码实现了一些无锁(且无原子!)的线程间通信，这些通信需要使用存储和加载内存屏障，但是C++ 11 release-acquire语义不适当，也不保证正确性。实际上，该算法暴露了对发布获取语义的某
android - 添加 Android Studio 3.0 的布局编辑器工具栏和上下文菜单中缺少的(垂直/水平)障碍
我指的是在 https://developer.android.com/training/constraint-layout/index.html#constrain-to-a-barrier 上使用
linux - 在具有 x64 操作系统 (redhat 5.6) 的 x64 CPU (Xeon 7650) 上运行的 X64 应用程序的 2GB 障碍 - 为什么 + 要检查的内容
我正在一个非常好的 IBM x 服务器(4 个 8 核 CPU)上运行一些模拟应用程序的 x64 版本。操作系统是 Linux - redhat 5.6 x64 内核。因此，此应用恰好在需要超过 2

首页

博学

6Ren·AI

商城

multithreading - 锁定指令是否在弱顺序访问之间提供了障碍？