assembly - 为什么(或不是？)SFENCE + LFENCE 等价于 MFENCE？-6ren

assembly - 为什么(或不是？)SFENCE + LFENCE 等价于 MFENCE？

转载作者：行者123 更新时间：2023-12-04 13:19:12

28

4

正如我们从之前对 Does it make any sense instruction LFENCE in processors x86/x86_64? 的回答中了解到的那样我们不能使用 SFENCE而不是 MFENCE顺序一致性。

那里的答案表明 MFENCE = SFENCE + LFENCE ，即 LFENCE做了一些我们无法提供顺序一致性的事情。
LFENCE无法重新排序:

SFENCE
LFENCE
MOV reg, [addr]

-- 到 -->

MOV reg, [addr]
SFENCE
LFENCE

例如重新排序 MOV [addr], reg LFENCE --> LFENCE MOV [addr], reg由 提供机制 - 存储缓冲区 ，它重新排序 Store - Loads 以提高性能，并且因为 LFENCE不阻止它。和 SFENCE 禁用此机制 .

什么机制禁用了 LFENCE使不可能的重新排序(x86 没有机制 - 无效队列)？

并且正在重新排序 SFENCE MOV reg, [addr] --> MOV reg, [addr] SFENCE仅在理论上可能还是在现实中可能？如果可能的话，实际上是什么机制，它是如何工作的？

最佳答案

x86围栏指令可以简单描述如下:

MFENCE 防止任何较晚的加载或存储在任何较早的加载或存储之前变得全局可见。它在以后的 load1 可以执行之前排空存储缓冲区。

LFENCE 会阻止指令分派(dispatch)(Intel 的术语)，直到所有较早的指令都失效。这目前是通过在以后的指令可以发布到后端之前排空 ROB(重新排序缓冲区)来实现的。

SFENCE 仅针对其他存储对存储进行排序，即防止 NT 存储在 SFENCE 本身之前从存储缓冲区提交。但除此之外，SFENCE 就像一个在存储缓冲区中移动的普通存储。把它想象成在杂货店结账传送带上放置一个分隔器，可以防止 NT 商店过早被抢购。在从 ROB 退出之前，它不一定会强制排空存储缓冲区，因此将 LFENCE 放在它之后不会加起来等于 MFENCE。

像 CPUID(和 IRET 等)这样的“序列化指令”在后续指令可以发布到后端之前耗尽所有内容(ROB、存储缓冲区)。 MFENCE + LFENCE 也会这样做，但真正的序列化指令可能还有其他效果，我不知道。

这些描述在订购什么样的操作方面有点含糊不清，并且供应商之间存在一些差异(例如，SFENCE 在 AMD 上更强)，甚至来自同一供应商的处理器。有关详细信息，请参阅 Intel 的手册和规范更新以及 AMD 的手册和修订指南。在 SO 其他其他地方也有很多关于这些说明的其他讨论。但请先阅读官方资料。上面的描述是我认为跨供应商的最小指定的纸上行为。
脚注 1 : 后面store的OoO exec不需要被MFENCE屏蔽；执行它们只是将数据写入存储缓冲区。按顺序提交已经在较早的存储之后对它们进行了订购，并在停用订单之后提交。加载(因为 x86 要求加载完成，而不仅仅是启动，然后才能退休，作为确保加载顺序的一部分)。
请记住，x86 硬件旨在禁止除 StoreLoad 之外的重新排序。
英特尔手册第 2 卷编号 325383-072US 将 SFENCE 描述为“确保在 SFENCE 之后的任何存储变得全局可见之前，SFENCE 之前的每个存储都是全局可见的”。第 3 卷第 11.10 节说使用 SFENCE 时会耗尽存储缓冲区。对这条语句的正确解释正是第 2 卷中较早的语句。因此可以说 SFENCE 在这个意义上耗尽了存储缓冲区。无法保证在 SFENCE 的生命周期中较早的商店在什么时候实现 GO。对于任何较早的商店，它可能发生在 SFENCE 退休之前、之时或之后。关于 GO 的意义是什么，它取决于几个因素。这超出了问题的范围。见: Why “movnti” followed by an “sfence” guarantees persistent ordering？ .
MFENCE 确实必须防止 NT 存储与其他存储重新排序，因此它必须包括 SFENCE 所做的任何事情，以及排空存储缓冲区。并且还对来自 WC 内存的弱排序 SSE4.1 NT 加载进行重新排序，这更加困难，因为免费获得加载排序的正常规则不再适用于那些。保证这个 is why a Skylake microcode update strengthened (and slowed) MFENCE也像LFENCE一样耗尽ROB。 MFENCE 仍然有可能比硬件支持更轻，以选择性地强制执行管道中 NT 负载的排序。

SFENCE + LFENCE 不等于MFENCE 的主要原因是因为SFENCE + LFENCE 不会阻塞StoreLoad 重新排序，因此不足以实现顺序一致性 .只有 mfence (或 lock ed 操作，或真正的序列化指令，如 cpuid )将做到这一点。参见 Jeff Preshing 的 Memory Reordering Caught in the Act对于只有完整屏障就足够的情况。

来自 Intel's instruction-set reference manual entry for sfence :

The processor ensures that every store prior to SFENCE is globally visible before any store after SFENCE becomes globally visible.

但

It is not ordered with respect to memory loads or the LFENCE instruction.

LFENCE 强制较早的指令“在本地完成”(即从核心的乱序部分退出)，但对于存储或 SFENCE 而言，这仅意味着将数据或标记放入内存顺序缓冲区中，而不是将其刷新商店变得全局可见。即 SFENCE“完成”(从 ROB 退休)不包括刷新存储缓冲区。
这就像 Preshing 在 Memory Barriers Are Like Source Control Operations 中描述的一样，其中 StoreStore 障碍不是“即时”的。在那篇文章的后面，他解释了为什么#StoreStore + #LoadLoad + #LoadStore 屏障加起来不等于#StoreLoad 屏障。 (x86 LFENCE 有一些额外的指令流序列化，但由于它不刷新存储缓冲区，推理仍然成立)。
LFENCE 没有像 cpuid 那样完全序列化 ( which is as strong a memory barrier as mfence or a lock ed instruction )。它只是 LoadLoad + LoadStore 屏障，加上一些执行序列化的东西，这些东西可能是作为一个实现细节开始的，但现在被奉为保证，至少在 Intel CPU 上是这样。它对 rdtsc 很有用，并避免分支推测以减轻 Spectre。

顺便说一句，SFENCE 是 WB(普通)商店的空缺。
它根据任何存储对 WC 存储(例如 movnt 或存储到视频 RAM)进行排序，但与加载或 LFENCE 无关。只有在通常弱排序的 CPU 上，商店-商店屏障才能为正常商店做任何事情。除非您使用 NT 存储或映射 WC 的内存区域，否则您不需要 SFENCE。如果它确实保证在它可以退休之前耗尽存储缓冲区，那么您可以使用 SFENCE+LFENCE 构建 MFENCE，但英特尔的情况并非如此。

真正关心的是 StoreLoad 在商店和负载之间重新排序，而不是在商店和屏障之间，所以 你应该看看一个带有商店的案例，然后是障碍物，然后是负载 .

mov  [var1], eax
sfence
lfence
mov   eax, [var2]

可以按以下顺序全局可见(即提交到 L1d 缓存):

lfence
mov   eax, [var2]     ; load stays after LFENCE

mov  [var1], eax      ; store becomes globally visible before SFENCE
sfence                ; can reorder with LFENCE

关于assembly - 为什么(或不是？)SFENCE + LFENCE 等价于 MFENCE？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27627969/

28

4

0

文章推荐： oracle - ORA-12899 : value too large for column

文章推荐： C# Razor 页面 BindProperty 属性不起作用

文章推荐： amazon-web-services - 多个子网中的 Lambda 函数

assembly - "Assembly"与 "Assembler"
我被告知“汇编”是您在文件中编写的内容，让您的“汇编程序”将其转换为二进制代码。但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”，然后“汇编器”使其可执行。正确的用词是什么？
assembly - 如何正确结束 assembly ？
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
assembly - assembly 流水线
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑，所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意，检查是否会发生分支将在解码阶段完成。但是在
assembly - assembly 中的MUL功能
我正在尝试在汇编中进行简单的乘法运算，但是由于某些原因，当标记了MUL函数时，我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案这些称为指令，它们指定
assembly - assembly 中的递归斐波那契
我正在尝试在 Assembly 中实现递归斐波那契程序。但是，我的程序崩溃了，出现了未处理的异常，我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用，但我似乎无法指出哪里...... .386
assembly - assembly 中出现奇怪的字符？
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
assembly - assembly 中的搬迁
我有一个用汇编语言编写的裸机 ARM 的启动代码，我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中，并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
assembly - assembly 中的二维数组
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和，一个用于行总和)，并且我编写了一个函数，将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引，但是当 eax 或 e
assembly - assembly 中的双重条件检查
我正在开始组装，我正在使用 nasm 来组装代码，我正在尝试处理驻留在内存中的字符串并更改它，我想检查一个字节是否在某个范围内(ascii)，这样我就可以决定如何处理它，我似乎不知道如何检查一个值是否
assembly - assembly 分离过多的迹象是什么？
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情，但可能会将事物分离得太多。组装分离过多的迹象/气味是什么？最佳答案第一个(明显的)是:在一个有很多项目的解决方案中，其中只有少数(比如
assembly - assembly 中的斐波那契实现给出了意想不到的结果
我正在尝试编写斐波那契的汇编代码版本，它给出第 n 个斐波那契数并返回它。出于某种原因，它在存储斐波那契数的返回值和添加它们时遇到问题。我希望它打印第 n 个斐波那契数。我对我的代码做了一些修改
c# - Assembly.LoadFile、Assembly.LoadFrom 和 Assembly.Load 的替代方案？
我有一个最小的、可重现的示例有两个问题，该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。该示例适用于需要在运行时加载程序集并使用提供的
assembly - : operator do in assembly? 是什么
: 运算符在汇编中做什么？代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案那实际上只是一个寄存器分隔符，而不是运算符。这意味着使用 DX 寄
assembly - GMP- assembly 代码？
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
assembly - 如何计算 assembly 中的负数
我是组装新手，我有一个关于如何表示负数的问题我有三个 DWORDS 变量，比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
assembly - 基本 assembly 程序
我想编写我的第一个汇编程序。我在论文上做了一些程序，但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单，翻译 A = 5 - A到 assembly NEG A ADD A, 5
assembly - 打印存储在字节中的值的宏。 assembly 体
程序集，masm 嘿，我写了宏来打印存储在 dane1 段中的 1 字节值。我将值除以 16，然后将提醒推送到堆栈，直到值==0。然后我弹出提醒将它们转换为 ASCII 码，并打印它们。有人可以看
assembly - assembly NASM 中的随机数生成
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法，但似乎无法限制范围内的数字。是否有一个小技巧或调整来获得所需的范围内的数字？目的
assembly - assembly x86 中的斐波那契数列
终于在无数次错误的漫长 session 之后，希望这是最后一个。没有编译或运行时错误，只是一个逻辑错误。编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
assembly - Arm Assembly-带有4个以上参数的调用函数
我知道在程序集r0中调用函数时，包含第一个参数，直到r3是第四个。我知道，当它超过四个时，将使用堆栈指针，但是我不太确定具体细节。 r0-r3仍然保持前四个，其余的进入堆栈吗？我正在看下面的程序集，试

首页

博学

6Ren·AI

商城

assembly - 为什么(或不是？)SFENCE + LFENCE 等价于 MFENCE？