- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经了解了不同的缓存映射技术,例如直接映射和完全关联或集合关联映射,以及它们之间的权衡。 ( Wikipedia )
但我很好奇现在英特尔酷睿 i7 或 AMD 处理器中使用的是哪一个?
这些技术是如何发展的?以及需要改进的地方有哪些?
最佳答案
现代高性能 CPU 中基本上从不使用直接映射缓存 .对于相同大小的组关联缓存,命中率的巨大优势超过了节能,而控制逻辑只是稍微复杂了一点。如今,晶体管预算非常大。
对于软件来说,至少有几个彼此相距 4k 倍的数组是很常见的,这会在直接映射缓存中产生冲突未命中。 (如果一个循环需要一次遍历所有数组,则调整具有多个数组的代码可能涉及倾斜它们以减少冲突未命中)
现代 CPU 速度如此之快,以至于 DRAM 延迟超过 200 个核心时钟周期,即使对于强大的乱序执行 CPU 来说,这也太大了,无法很好地隐藏缓存未命中。
多级缓存必不可少 (并且使用的是所有高性能 CPU)为 HitTest 数据提供低延迟(~4 个周期)/高吞吐量(例如 up to 2 loads and 1 store per clock ,在 L1D 缓存和向量加载之间具有 128、256 甚至 512 位路径/store 执行单元),同时仍然足够大以缓存合理大小的工作集。构建一个非常大/非常快/高度关联的缓存在物理上是不可能的,它的性能与当前典型工作负载的多级缓存一样;当数据必须物理传输很远时,光速延迟是一个问题。电力成本也会令人望而却步。 (实际上,功率/功率密度是现代 CPU 的主要限制因素,请参阅 Modern Microprocessors: A 90-Minute Guide!。)
在我知道的所有 x86 CPU 中,所有级别的缓存(除了 uop 缓存)都被物理索引/物理标记。大多数设计中的 L1D 缓存从页面偏移下方获取它们的索引位,因此也是 VIPT,允许 TLB 查找与标签提取并行发生,但没有任何别名问题。因此,不需要在上下文切换或任何事情上刷新缓存。 (参见 this answer for more about multi-level caches 一般和 VIPT 速度技巧,以及一些实际 x86 CPU 的一些缓存参数。)
私有(private)(每核)L1D/L1I 和 L2 缓存是传统的组关联缓存 ,通常是 8 路或 4 路用于小/快速缓存。所有现代 x86 CPU 上的缓存线大小为 64 字节。数据缓存是回写的。 (除了 AMD Bulldozer 系列,其中 L1D 是使用小型 4kiB 写入组合缓冲区进行直写。)
http://www.7-cpu.com/具有良好的缓存组织/延迟数字、带宽和 TLB 组织/性能数字,适用于各种微架构,包括许多 x86,like Haswell .
英特尔 Sandybridge 系列中的“L0”解码 uop 缓存是集合关联的,并且是虚拟寻址的 .最多 6 个 uop 的 3 个块可以缓存来自 32 字节机器代码块中指令的解码结果。相关:Branch alignment for loops involving micro-coded instructions on Intel SnB-family CPUs . (uop 缓存是 x86 的一大进步:x86 指令长度可变,难以快速/并行解码,因此缓存内部解码结果以及机器码 (L1I$) 具有显着的功率和吞吐量优势。强大的仍然需要解码器,因为 uop 缓存并不大;它在循环(包括中到大循环)中最有效。这避免了 Pentium4 错误(或当时基于传输器大小的限制)具有弱解码器和依赖跟踪缓存。)
现代英特尔(和 AMD,我假设)L3 又名 LLC 又名 最后一级缓存使用的索引函数不仅仅是地址位范围 .这是一个散列函数,可以更好地分配事物以减少固定步幅的冲突。 According to Intel my cache should be 24-way associative though its 12-way, how is that? .
从尼哈勒姆开始 , Intel 用了一个 大型包容性共享 L3 缓存,可过滤内核之间的一致性流量 .即,当一个内核读取另一个内核的 L1d 中处于修改状态的数据时,L3 标签会说明哪个内核,因此 RFO(读取所有权)只能发送到该内核,而不是广播。 How are the modern Intel CPU L3 caches organized? .包容性属性很重要,因为这意味着没有私有(private) L2 或 L1 缓存可以在 L3 不知道的情况下拥有缓存行的副本。如果它在私有(private)缓存中处于 Exclusive 或 Modified 状态,则 L3 将具有该行的无效数据,但标签仍会说明哪个核心可能有副本。绝对没有副本的内核不需要发送有关它的消息,从而通过内核和 L3 之间的内部链接节省功率和带宽。见 Why On-Chip Cache Coherence Is Here to Stay有关英特尔“i7”中片上缓存一致性的更多详细信息(即 Nehalem 和 Sandybridge 系列,它们是不同的架构,但使用相同的缓存层次结构)。
Core2Duo 有一个共享的最后一级缓存 (L2),但在 L2 未命中时生成 RFO(读取所有权)请求的速度很慢。因此,具有适合 L1d 的小缓冲区的内核之间的带宽与不适合 L2 的大缓冲区(即 DRAM 速度)一样慢。当缓冲区适合 L2 而不是 L1d 时,大小范围会很快,因为写入核心将自己的数据驱逐到 L2,其他核心的负载可以在此处命中而不生成 RFO 请求。 (请参阅 Ulrich Drepper 的“每个程序员应该了解的内存知识”中的 Figure 3.27: Core 2 Bandwidth with 2 Threads。(Full version here)。
Skylake-AVX512 具有更大的每核 L2(1MiB 而不是 256k),每核具有更小的 L3 (LLC) 切片。不再包容 .它使用网状网络而不是环形总线将核心相互连接起来。见 this AnandTech article (但它在其他页面的微架构细节中存在一些不准确之处,see the comment I left)。
From Intel® Xeon® Processor Scalable Family Technical Overview
Due to the non-inclusive nature of LLC, the absence of a cache line in LLC does not indicate that the line is not present in private caches of any of the cores. Therefore, a snoop filter is used to keep track of the location of cache lines in the L1 or MLC of cores when it is not allocated in the LLC. On the previous-generation CPUs, the shared LLC itself took care of this task.
关于x86 - 英特尔酷睿 i7 处理器使用了哪种缓存映射技术?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49092541/
我为 4 套接字服务器的大对象( double 矩阵)编写 NUMA-aaware 缓存。我观察到套接字间通信是我的应用程序的瓶颈。因此,我希望不同套接字上的线程具有单独的矩阵缓存。我已将线程限制到特
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: Parsing JSON using C? 处理 JSON 的最佳 C 库是什么? http://www.j
我一直在使用递归 SpinTax 处理器,如 here 所示, 它适用于较小的字符串。然而,当字符串超过 20KB 时,它开始耗尽内存,这就成了一个问题。 如果我有这样的字符串: {Hello|How
C# 中是否有一个#define 允许我在编译时知道我是针对 x86 (Win32) 还是针对 x64 (Win64) 进行编译? 最佳答案 默认情况下没有办法做到这一点。原因是 C# 代码不是针对特
我不确定 SO 是否是提出这个问题的最佳场所。如果没有,请告诉我应该去哪个姊妹网站。 我一直在阅读一篇关于英特尔的可信执行技术 (TXT) 的论文,其中包含以下我似乎无法理解的文字: “英特尔创建了一
我需要一个工具来针对 执行 XSLT非常大 XML 文件。需要明确的是,我不需要任何东西来设计、编辑或调试 XSLT,只需执行它们即可。我正在使用的转换已经很好地优化了,但是大文件导致我尝试过的工具(
我正在学习Apache Camel。 能否请您解释一下关于Apache Camel的处理器,组件和端点之间的区别。 最佳答案 我建议所有刚接触Apache Camel的人阅读这篇文章,它很好地解释了C
我想知道在 Camel 处理器上获得同步的方法。 我在 docs 找到的唯一相关内容: Note that there is no concurrency or locking issue when
我看到这个 https://issues.apache.org/jira/browse/NIFI-78在 jira 上,但它引用了 java。有没有办法将 nifi 进程映射到服务器上的线程,以便我可
我有以下用例: 在一个应用程序中,我使用 X 线程消费一些消息,其中我有一个这样定义的 Consumer 实现: public interface Consumer { onMessage(
CPU12 处理器中是否有提供简单 NOT 功能的代码? 最佳答案 这应该是 the datasheet您正在寻找。没有可用的logical NOT,您必须自己编写代码。 关于assembly - 不
我对 Oracle XDK 中包含的 Java XSLT 处理器与 Oracle DB 中嵌入并由 SQL XMLtransform 函数使用的 XSLT 处理器之间的关系感到困惑。 这些是相同的野兽
我正在试用 Camel,发现它是一个方便的端点集成工具。我已经设置了以下实验性应用程序: 第一个端点是一个简单的 http-get 请求(在命令行上使用 curl)。这与使用 Jetty 的中央交换机
我正在为一个应用程序使用 Apache Camel 和 Spring Boot。我需要从目录中读取数据,然后解码读取的 xml,然后处理解码的对象以在其中设置更多数据,然后再次对其进行编码并将其发送到
我已经知道如何编写自定义处理器(扩展org.apache.nifi.processor.AbstractProcessor)。我已经使用了这种技术,并且也可以轻松创建自定义 org.apache.ni
是否有任何用 python 编写的 EasyList 处理器/解析器? http://easylist.adblockplus.org/en/ 最佳答案 找到了!就像一个月后:( http://adb
我有一个无法安装任何东西的开发(说来话长)。我只需要使用纯 HTML/浏览器 JS 进行开发,并且我想使用 CSS 预处理器。我喜欢 SCSS (SASS),但为了使用它,我必须在我的机器上安装 ru
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
对于新手来说,是直接从 ARM 处理器的数据表和用户手册开始,还是先了解一下 ARM 世界然后再继续? 最佳答案 当我开始使用一项(对我而言)新技术时,我首先会找到尽可能多的数据表和应用说明,然后直接
我使用 AMD FX X6 6300 型处理器。 (它支持虚拟化,我的 BIOS 设置为 ON) 我安装了“英特尔 x86 仿真器加速器”。当我尝试运行 Intel 加速器设置时,我得到该设置无法安装
我是一名优秀的程序员,十分优秀!