- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
很多问题SO和文章/书籍,例如https://mirrors.edge.kernel.org/pub/linux/kernel/people/paulmck/perfbook/perfbook.2018.12.08a.pdf , Preshing的文章如https://preshing.com/20120710/memory-barriers-are-like-source-control-operations/和他的整个系列文章,抽象地讨论内存排序,根据不同障碍类型提供的排序和可见性保证。我的问题是这些障碍和内存排序语义是如何在 x86 和 ARM 微架构上实现的?
对于存储-存储屏障,似乎在 x86 上,存储缓冲区维护存储的程序顺序并将它们提交到 L1D(从而使它们以相同的顺序全局可见)。如果存储缓冲区未排序,即不按程序顺序维护它们,如何实现存储存储屏障?它只是以这样一种方式“标记”存储缓冲区,即在屏障提交之前存储在缓存一致域之前存储在之后?还是内存屏障实际上刷新存储缓冲区并停止所有指令直到刷新完成?可以双向实现吗?
对于负载-负载屏障,如何防止负载-负载重新排序?很难相信 x86 会按顺序执行所有加载!我假设负载可以无序执行但按顺序提交/退出。如果是这样,如果一个 cpu 对 2 个不同的位置执行 2 个加载,那么一个加载如何确保它从 T100 获得一个值,而下一个在 T100 上或之后获得它?如果第一次加载在缓存中未命中并且正在等待数据并且第二次加载命中并获取其值,该怎么办。当加载 1 获得它的值时,它如何确保它获得的值不是来自加载 2 的值的较新商店?如果负载可以乱序执行,如何检测到违反内存顺序?
同样,加载-存储屏障(隐含在 x86 的所有加载中)是如何实现的,以及存储-加载屏障(例如 mfence)是如何实现的?即 dmb ld/st 和 just dmb 指令在 ARM 上进行微架构做什么,每个加载和每个存储以及 mfence 指令在 x86 上进行微架构以确保内存排序?
最佳答案
其他问答中已经涵盖了其中的大部分内容,但我将在此处进行总结。 (并寻找要添加的链接)。不过,好问题,将所有这些都收集在一个地方很有用。
在 x86 上,每个 asm 加载都是一个获取加载 .为了有效地实现这一点,现代 x86 硬件比允许的更早地推测加载,然后检查该推测。 (可能会导致内存顺序错误推测管道核弹。)为了跟踪这一点,英特尔将加载和存储缓冲区的组合称为“内存顺序缓冲区”。
弱序 ISA 不必推测,它们可以按任何顺序加载。
x86 商店订购 仅通过让存储按程序顺序从存储缓冲区提交到 L1d 来维护。
至少在 Intel CPU 上,当它发出时(从前端到 ROB + RS)为存储分配一个存储缓冲区条目。所有 uops 都需要为它们分配一个 ROB 条目,但一些 uops 还需要分配其他资源,例如加载或存储缓冲区条目、它们读/写的寄存器的 RAT 条目等。
所以我认为存储缓冲区本身是有序的 .当存储地址或存储数据 uop 执行时,它只是将地址或数据写入其已分配的存储缓冲区条目。由于提交(释放 SB 条目)和分配都是按程序顺序进行的,我假设它在物理上是一个带有头和尾的循环缓冲区,就像 ROB。 (与 RS 不同)。
避免 LoadStore 基本上是免费的 :加载在执行之前无法退出(从缓存中获取数据)。商店在退休后才能提交。按顺序停用意味着所有先前的加载都在存储“毕业”并准备好提交之前完成。
一个可以在实践中进行加载存储重新排序的弱排序 uarch 可能会记分板加载:让它们在它们不是无故障的但在数据到达之前退休。
这在有序内核上似乎更有可能,但 IDK。因此,您可能有一个已停用的负载,但如果在数据实际到达之前有任何尝试读取它,则寄存器目的地仍将停止。我们知道,有序内核在实践中以这种方式工作,不需要在后面的指令可以执行之前完成加载。 (这就是为什么使用大量寄存器的软件流水线在此类内核上如此有值(value),例如实现 memcpy。在有序内核上立即读取加载结果会破坏内存并行性。)
How is load->store reordering possible with in-order commit?更深入地讨论这一点,对于有序与无序。
屏障说明
对普通商店做任何事情的唯一屏障指令是 mfence
在实践中,它会停止内存操作(或整个管道),直到存储缓冲区耗尽。 Are loads and stores the only instructions that gets reordered?涵盖了像 lfence
一样的 Skylake-with-updated-microcode 行为以及。lfence
主要是为了阻止后续指令发出的微体系结构效应,直到所有先前的指令都离开乱序后端(退休)。 lfence
的用例内存排序几乎不存在。
有关的:
_mm_sfence()
当你没有使用任何 NT 存储时,只会让你的代码无缘无故地变慢 atomic_thread_fence(mo_release)
. 关于x86 - 障碍/围栏和获取、释放语义是如何在微架构上实现的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58070428/
我有一个附加了 View Controller 的 AVAudioPlayer 实例。 @property (nonatomic, retain) AVAudioPlayer *previewAudi
我是java初学者。假设我声明了一个 Account 类型的变量 Account _account = new Account("Thomas"); 然后在其他地方我做了这样的事情: _account
我在我的应用程序中使用了 3 个 UIViewController,现在我想知道当我从另一个应用程序切换到另一个 UIViewController 时释放它们是否是一个好主意。显然,这将是隐藏的,当它
我分配了一个直接缓冲区: ByteBuffer directBuffer = ByteBuffer.allocateDirect(1024); 我读过: Deallocating Direct Buf
场景。我有一个图表,我可以使用右键单击来执行平移。这非常有效。然后我完美地添加了右键菜单。 问题。现在,即使在拖动操作完成后释放鼠标,也会显示右键菜单。 有没有办法在 Java Swing 或 Jav
我使用此代码获取 ABPerson 的姓氏 CFStringRef lastNameRef = ABRecordCopyValue((ABRecordRef)personRecordRef, kABP
目前,我们在基于 C 的嵌入式应用程序中使用 malloc/free Linux 命令进行内存分配/取消分配。我听说这会导致内存碎片,因为内存分配/取消分配会导致堆大小增加/减少,从而导致性能下降。其
当我尝试释放缓冲区时遇到问题。每次我尝试将缓冲区传递给释放方法时,都会发生段错误。 Valgrind 确认段错误位于 BufferDeallocate 方法中。 ==30960== Memcheck,
我想知道何时按下或释放修改后的键(Ctrl 或 Shift)。 基本上,用户可以在按下修改键的情况下执行多次击键,而我不想在它被释放之前执行一个操作(想想 Emacs 和 Ctrl + X + S).
我编写了一个相当大的网络应用程序。它运行良好一段时间,然后慢慢开始运行缓慢,因为 DOM 节点开始爬升到 80,000 - 100,000 左右。 所以我一直在 Chrome 开发工具控制台 (DCT
我知道在像 c 这样的语言中,我需要在分配内存后释放它。 (我来自 Java),对此我有几个问题: 当我在做的时候: int array[30]; (即创建一个大小为 30 个整数的数组)与
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How to release pointer from boost::shared_ptr? Detach
我有一个可以从多个后台线程访问的类,可能同时访问。我无法复制该类,因为重新创建它的内容(处理或内存方面)可能很昂贵。 也有可能在后台处理仍在继续并访问该属性时替换了此类的属性。 目前我有定期的保留/释
这个问题是对: 的扩展链接-1:Creating an image out of the ios surface and saving it Link-2:Taking Screenshots fro
我有一个实例变量 NSMutableArray* searchResults。 首先,我初始化它: self.searchResults = [[NSMutableArray alloc] init]
如果我在堆上声明一些东西,比如 char *a=new char[1000] 并且主程序停止,如果没有 delete[]<,那么分配的内存会发生什么 调用?它保留在堆上还是自动释放? 最佳答案 就C+
在开发相机应用时,我遇到了一个异常,该异常仅在我切换到其他应用时发生(onPause() 用于我的应用)。 01-15 17:22:15.017: E/AndroidRuntime(14336): F
使用 JDK 1.8 编译时出现 maven 编译器错误 无法执行目标 org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (de
将 BufferedImage 保存到磁盘(以释放内存)的最快方法是什么? 我的 Java 应用程序处理大量图像(每约 300 毫秒将图像加载到内存中)。大多数这些图像都会立即被丢弃 (gc),但每隔
使用 JDK 1.8 编译时出现 maven 编译器错误 未能在项目 DUMMY 上执行目标 org.apache.maven.plugins:maven-compiler-plugin:3.8.1:
我是一名优秀的程序员,十分优秀!