performance - 英特尔硬件上的存储缓冲区大小？什么是存储缓冲区？-6ren

performance - 英特尔硬件上的存储缓冲区大小？什么是存储缓冲区？

转载作者：行者123 更新时间：2023-12-04 03:35:41

Intel optimization manual讨论了处理器许多部分中存在的存储缓冲区的数量，但似乎没有讨论存储缓冲区的大小。是公共信息还是存储缓冲区的大小作为微体系结构细节保留？

我正在研究的处理器主要是Broadwell和Skylake，但是关于其他处理器的信息也将很好。

另外，存储缓冲区到底是做什么的？

最佳答案

相关：what is a store buffer?
How do the store buffer and Line Fill Buffer interact with each other?还很好地描述了执行存储指令的步骤以及该指令最终如何提交到L1d高速缓存。

整个存储缓冲区由多个条目组成。
每个内核都有自己的存储缓冲区1，以将执行和退出与提交到L1d缓存的过程分离开。即使是有序的CPU也可以从存储缓冲区中受益，避免在高速缓存未命中的存储中停顿，因为与负载不同，它们最终必须变得可见。（没有实际的CPU使用顺序一致性内存模型，因此，即使在x86和SPARC-TSO中，至少也允许StoreLoad重新排序）。
对于推测性/乱序CPU，它还可以在检测到较旧指令中的异常或其他错误推测后回滚存储，而不必在全局范围内看到推测性存储。这显然对于正确性至关重要！（您不能回滚其他内核，因此，除非已知它们是非推测性的，否则您不能让它们看到您的商店数据。）

当两个逻辑内核都处于活动状态（超线程）时，Intel将存储缓冲区分为两个；每个逻辑核心得到一半。从一个逻辑核心加载仅监听其自身一半的存储缓冲区2。 What will be used for data exchange between threads are executing on one Core with HT?
存储缓冲区按照程序顺序（考虑到x86的强排序内存模型3），将已退休的存储指令中的数据尽快提交到L1d中。要求存储在退休时进行提交将不必要地使高速缓存未命中的存储停滞退休。仍在存储缓冲区中的退休存储肯定会发生并且无法回滚，因此它们实际上会损害中断延迟。（从技术上讲，不需要中断就可以进行序列化，但是由IRQ处理程序完成的任何存储都必须等到现有挂起的存储被清空后才可见。并且iret正在序列化，因此即使在最佳情况下，存储缓冲区也要在此之前被清空返回）。
这是一个常见的（？）误解，即必须显式刷新数据才能使数据对其他线程可见。内存屏障不会导致刷新存储缓冲区，完全的屏障会使当前内核等待直到存储缓冲区自身耗尽为止，然后再允许任何后续加载发生（即读取L1d）。原子RMW操作必须等待存储缓冲区耗尽后才能锁定高速缓存行，并在不使其保持MESI Modified状态的状态下进行加载和存储到该行，从而阻止系统中的任何其他代理在观察期间原子操作。
为了实现x86的有序内存模型，同时仍以微体系结构方式允许早期/无序加载（以及在体系结构允许发生加载时稍后检查数据是否仍然有效），加载缓冲区+存储缓冲区条目共同构成了内存顺序缓冲区（MOB）。（如果允许加载时仍不存在高速缓存行，则可能是内存顺序的错误推测。）这种结构大概是mfence和lock指令可以放置障碍来阻止StoreLoad重新排序的原因。不会阻止乱序执行。（尽管mfence on Skylake does block OoO exec of independent ALU instructions，作为实现细节。）
movnt绕过高速缓存的存储区（例如movntps）也将通过存储缓冲区，因此它们可以被视为推测性的，就像OoO exec CPU中的其他所有内容一样。但是它们直接提交给LFB（行填充缓冲区）（又名写合并缓冲区），而不是L1d高速缓存。

英特尔CPU上的存储指令解码为存储地址和存储数据uops（微融合为一个融合域uop）。 store-address uop只是将地址（可能还有存储宽度）写入到存储缓冲区中，因此以后的加载可以设置store-> load转发或检测到它们没有重叠。存储数据uop写入数据。
存储地址和存储数据可以按任意顺序执行，以先准备好的顺序为准：分配/重命名阶段将前端的uops写入ROB，后端的RS也为该负载分配负载或存储缓冲区。在发行时存储uops。或拖延直到有空。由于分配和提交是按顺序进行的，这可能意味着较早/较年轻的人很容易跟踪，因为它可以只是循环缓冲区，而不必担心旧的长寿命条目在回绕后仍在使用。（除非绕过缓存/无序的NT存储可以做到这一点？它们可以不按顺序提交给LFB（行填充缓冲区）。与普通存储不同，它们直接提交给LFB进行内核外传输，而不是L1d ）

但是条目的大小是多少？

存储缓冲区的大小是按条目而不是位进行度量的。
狭窄的存储区不会在存储区缓冲区中“使用较少的空间”，它们仍然只使用1个条目。
Skylake的存储缓冲区有56个条目（wikichip），而Haswell / Broadwell中只有42个条目，而SnB / IvB中有36个条目（David Kanter's HSW writeup on RealWorldTech has diagrams)。您可以在Kanter在RWT或Wikichip的图表中找到最新x86 uarches的编号，或其他各种来源。
SKL / BDW / HSW还具有72个加载缓冲区条目，SnB / IvB具有64个加载缓冲区条目。这是未执行或正在等待数据从外部缓存到达的运行中加载指令的数量。

每个条目的位大小是一个实现细节，对优化软件的方式几乎没有影响。同样，我们不知道uop的大小（在前端，在ROB中，在RS中），TLB实现细节或许多其他内容，但是我们确实知道有多少ROB和RS有多少个条目，以及各个uarch中有多少个不同类型的TLB条目。
英特尔不会发布其CPU设计的电路图，而且这些尺寸通常也不为人所知（AFAIK），因此我们甚至无法满足我们对设计细节/折衷的好奇心。

在存储缓冲区中写入合并：
在提交之前，可以（也可能在存储缓冲区中合并）到同一高速缓存行的背对背窄存储，也可以合并在一起，因此可以只花一个周期在L1d高速缓存的写端口上提交多个存储。
我们肯定知道某些非x86 CPU会执行此操作，并且我们有一些证据/理由怀疑Intel CPU可能会执行此操作。但是，如果发生这种情况，那就是有限的。 @BeeOnRope和我目前认为英特尔CPU可能没有进行任何重大合并。如果这样做，最合理的情况是，所有都进入同一高速缓存行的存储缓冲区末尾的条目（准备提交到L1d）可能会合并到一个缓冲区中，如果我们正在等待RFO，则会优化提交该缓存行。参见有关Are two store buffer entries needed for split line/page stores on recent Intel?的评论中的讨论。我提出了一些可能的实验，但还没有完成。
关于可能的存储缓冲区合并的早期内容：
请参阅以以下评论开头的讨论：Are write-combining buffers used for normal writes to WB memory regions on Intel?
而且Unexpectedly poor and weirdly bimodal performance for store loop on Intel Skylake可能是相关的。
我们可以肯定地知道一些弱排序的ISA（例如Alpha 21264）确实在其存储缓冲区中存储了合并，因为the manual documents it以及它在每个周期可以提交和/或从L1d读取内容的限制。在文档中，PowerPC RS64-II和RS64-III的详细信息也较少，链接来自此处的注释：Are there any modern CPUs where a cached byte store is actually slower than a word store?
人们已经发表了有关如何在TSO内存模型（例如x86）中存储合并的论文（更具侵略性）。 Non-Speculative Store Coalescing in Total Store Order
如果将其数据复制到同一行中的存储，则合并可以允许在其数据提交到L1d之前释放存储缓冲区条目（大概仅在退出之后）。仅当没有其他行的存储将它们分开时，才会发生这种情况，否则，它将导致存储以程序顺序的方式提交（成为全局可见的），从而违反了内存模型。但是我们认为这可能发生在同一行的任何两个存储中，甚至是第一个和最后一个字节。
这个想法的问题是，SB条目分配可能是一个环形缓冲区，例如ROB。不按顺序发布条目将意味着硬件将需要扫描每个条目以找到空闲的条目，然后，如果它们按不正确的顺序重新分配，则它们在以后的存储中不会处于程序顺序。这会使分配和存储转发变得更加困难，因此这似乎不可行。
正如在
Are two store buffer entries needed for split line/page stores on recent Intel?，即使一个SB条目跨越了一个缓存行边界，它也应该拥有一个存储的所有存储。在离开SB时提交到L1d缓存时，缓存行边界变得很重要。我们知道，存储转发可用于跨缓存行拆分的存储。如果将它们在存储端口中拆分为多个SB条目，则似乎不太可能。

术语：我一直在使用“推销”来谈论在存储缓冲区中的合并，而“写合并”则是在谈论（有希望）在没有RFO的情况下进行全行写入之前在LFB中合并的NT存储。或将执行相同操作的存储到WC内存区域。
这种区别/约定只是我所做的。根据评论中的讨论，这可能不是标准的计算机体系结构术语。
英特尔的手册（尤其是优化手册）是由不同的作者多年编写的，并且在术语上也不一致。仔细阅读优化手册的大部分内容，尤其是在谈到Pentium4时。关于Sandybridge和Haswell的新部分是可靠的，但较旧的部分可能只提供过时的建议，而该建议仅/主要与P4相关（例如inc vs. add 1），或者某些优化规则的微体系结构解释可能令人困惑/错误。特别是第3.6.10节“写合并”。由于内存排序规则，关于使用LFB组合存储同时等待行到达高速缓存未命中的存储到WB内存的第一个要点似乎是不合理的。参见上面我和BeeOnRope之间的讨论，以及此处的评论。

脚注1：
写合并高速缓存以缓冲内部高速缓存的回写（或直写）将具有不同的名称。例如推土机系列使用16k直写式L1d高速缓存和一个4k的小写回缓冲区。（有关详细信息和更多详细信息，请参见Why do L1 and L2 Cache waste space saving the same data?。有关在Bulldozer系列CPU上放慢到4k以上的重写数组微基准，请参见Cache size estimation on your system?。）
脚注2：某些POWER CPU允许其他SMT线程在存储缓冲区中监听已退休的存储：这可能导致不同的线程与其他线程就存储的全局顺序产生分歧。 Will two atomic writes to different locations in different threads always be seen in the same order by other threads?
脚注3：内存模型较弱的非x86 CPU可以按任何顺序提交已淘汰的存储，从而可以更积极地将多个存储合并到同一行，并使高速缓存未命中存储不会使其他存储停止提交。

关于performance - 英特尔硬件上的存储缓冲区大小？什么是存储缓冲区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54876208/

文章推荐： openstreetmap - 使用 pelias OSM 自动完成搜索

文章推荐： java - 二维数组从一个角到另一个角的最小路径

c# - Azure 存储(经典)与 Azure 存储 (V2) 代码不适用于 V2 存储
我正在运行一个辅助角色，并检查 Azure 上托管的存储中是否存在数据。当我将连接字符串用于经典类型的存储时，我的代码可以正常工作，但是当我连接到 V2 Azure 存储时，它会抛出此异常。 “远程服
javascript - HTML5 Web 存储 - 存储 JSON 数据然后检索它
在我的应用程序的主页上，我正在进行 AJAX 调用以获取应用程序各个部分所需的大量数据。该调用如下所示: var url = "/Taxonomy/GetTaxonomyList/" $.getJSO
vue.js - "export ' 存储 ' was not found in ' ../存储'
大家好，我正在尝试将我的商店导入我的 Vuex Route-Gard。路由器/auth-guard.js import {store} from '../store' export default
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
python - 设置 Mlflow 后端 (SQLite) 和工件(Azure Blob 存储)存储
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
c# - Azure Blob 存储 - 上传 Blob 后如何获取 Blob 存储 ID？
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure，并将 Blob ID 存储在我们的数
python - 设置 Mlflow 后端 (SQLite) 和工件(Azure Blob 存储)存储
我想将 Mlflow 设置为具有以下组件: 后端存储(本地):在本地使用 SQLite 数据库存储 Mlflow 实体(run_id、params、metrics...) 工件存储(远程):使用 Az
python - 使用适用于 Python 的 Azure 存储 SDK 将多个文件从文件夹上传到 Azure Blob 存储
我的 Windows 计算机上的本地文件夹中有一些图像。我想将所有图像上传到同一容器中的同一 blob。我知道如何使用 Azure Storage SDKs 上传单个文件BlockBlobServi
javascript - 向 Azure Blob 存储 [REST API][Azure Blob 存储] 发出 GET 请求时授权失败
我尝试发出 GET 请求来获取我的 Azure Blob 存储帐户的帐户详细信息，但每次都显示身份验证失败。谁能判断形成的 header 或签名字符串是否正确或是否存在其他问题？代码如下: cons
javascript - NeutralinoJS 存储
这是用于编写 JSON 的 NeutralinoJS 存储 API。是否可以更新 JSON 文件(推送数据)，而不仅仅是用新的 JS 对象覆盖数据。怎么做到的？？？ // Javascript
jenkins - 在调用并行阶段之前运行脚本(存储)
我有一个并行阶段设置，想知道是否可以在嵌套阶段之前运行脚本，所以像这样: stage('E2E-PR-CYPRESS') { when { allOf {
virtualbox - VBoxManage列出虚拟机详细信息(存储)
我想从命令行而不是从GUI列出VirtualBox VM的详细信息。我对存储细节特别感兴趣。当我在GUI中单击VM时，可以看到包括存储部分在内的详细信息: 但是到目前为止，我还没有找到通过命令行执行
rdbms - 存储/访问有向图的最佳方式
我有大约 3500 个防洪设施，我想将它们表示为一个网络来确定流动路径(本质上是一个有向图)。我目前正在使用 SqlServer 和 CTE 来递归检查所有节点及其上游组件，只要上游路径没有 fork
Jquery data() 存储
谁能告诉我 jquery data() 在哪里存储数据以及何时删除以及如何删除？如果我用它来存储ajax调用结果，会有性能问题吗？例如: $("body").data("test", { myDa
Firebase 存储 - 如何设置备份
有人可以建议如何为 Firebase 存储中的文件设置备份。我能够备份数据库，但不确定如何为 firebase 存储中的文件(我有图像)设置定期备份。最佳答案如何进行 Firebase 存储的本地
Firebase 存储 - 图像预览正在永久加载
我最近开始使用 firebase 存储和 firebase 功能。现在我一直在开发从功能到存储的文件上传。我已经让它工作了(上传完成并且文件出现在存储部分)，但是，图像永远保持这样(永远在右侧加载)
Firebase 存储 – 不能删除大小要求
我想只允许用户将文件上传到他们自己的存储桶中，最大文件大小为 1MB，仍然允许他们删除文件。我添加了以下内容: match /myusers/{userId}/{allPaths=**} { al
Azure 存储 - 数据湖生命周期管理问题
使用生命周期管理策略将容器的内容从冷访问层移动到存档。我正在尝试以下策略，希望它能在一天后将该容器中的所有文件移动到存档层，但事实并非如此在职的。我设置了选择标准“一天未使用后”。这是 json 代
Azure 存储，在安全性和速度之间进行选择
对于连接到 Azure 存储端点，有 http 和 https 两个选项。第一。 https 会带来开销，可能是 5%-10%，但我不支付同一个数据中心的费用。第二。 http 更快，但 Auth
Azure 存储 vhd
有人可以帮我理解这一点吗？我创建了Virtual Machine in Azure running Windows Server 2012 。我注意到 Azure 自动创建了一个存储帐户。当我进入该存

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

performance - 英特尔硬件上的存储缓冲区大小？什么是存储缓冲区？