- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要根据某些处理器的内存表优化一组算法。我发现自己想知道为什么至少从 2010 年以来每个英特尔处理器都使用每个内核 64KB(32KB 数据,32KB 指令)的 L1 缓存。
为什么他们坚持使用 64KB,即使随着几乎巨大的 L3 缓存的引入而增加其他缓存?
有什么我可以读到的吗?
如果这在 future 5 年或 10 年内会增加,是否有正确的猜测?
我检查了其他供应商,例如 Opterons 提供 64KB + 64KB,但每个模块共享,而 Interlagos(例如)每个内核只有 16KB,每个模块共享 64KB 数据缓存。 Apple 的 A7 和 A8 的每个内核为 64KB + 64KB,但其他供应商使用 64 位 Arm 和 16KB + 16KB。
目前我使用 8KB 表进行设计,但是一旦我必须将两个表混合在一起,这变得更加重要。
最佳答案
L1i 和 L1d 需要低延迟并且(对于 L1d)需要多个读/写端口。 L1d 还需要支持从字节到 32 字节的任何宽度的未对齐加载/存储。 (或者在 AVX512 的 CPU 上为 64 字节)。保持这些缓存较小对于维护这些属性和控制功率非常重要。
体积小也使 VIPT(虚拟索引,物理标记)更容易,这对于最大限度地减少延迟至关重要。 (获取标签+数据与地址高位的 TLB 查找并行。)
见 Why is the size of L1 cache smaller than that of the L2 cache in most of the processors?有关这些因素的更多详细信息。
将您的功率预算花在其他地方(L1i/L1d 除外)在某个点之后更有值(value)。例如在更好的 OoO exec、更多的加载/存储缓冲区条目或更大的每核私有(private) L2 上,这有点快但不需要多个读/写端口,并且不需要支持未对齐的字节访问:这是关键让 L1d 保持小而共享 L3 变得巨大的变化。
有趣的事实:对于 Ice Lake,英特尔最终通过将关联性从 8 增加到 12 将 L1d 缓存从 32k 提高到 48k(“免费”维护 VIPT 而没有混叠问题)。
这是英特尔自 Pentium-M 以来首次增加 L1。 ,从 Pentium 3 中的 16k + 16k 增加到 32k + 32k。(以及 Pentium 4 中的跟踪缓存 + 16k L1d)。
在 P-M 和 Skylake-X 之间,Intel 大幅提升了 L1d 和 L2 之间的带宽,改进了未对齐的 SIMD 加载/存储,将 SIMD 加载/存储数据路径从 8 个字节扩大到 64 个字节,并增加了另一个缓存读取端口。 (Haswell 和更高版本每个周期可以进行 2 次读取和 1 次写入)。
OTOH,AMD 多年来一直在尝试不同的 L1 配置,但对于 Zen 而言,它选择了与英特尔相同的优秀设计。 (32k,良好的关联性,每核私有(private) L2 缓存支持它,因此 L1d 未命中不是灾难,也不必命中共享缓存。)
也可以看看
关于arm - 现代处理器中 L1 缓存大小的原因,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30286138/
我对cassandra并使用1.2.10非常陌生。我有一个时间戳数据类型的主键列。现在,我正在尝试检索日期范围的数据。由于我们知道不能在cassandra中使用,因此我使用的是大于()来获取日期范围。
我正在尝试进行有条件的转场。但我得到: Terminating app due to uncaught exception 'NSInvalidArgumentException', reas
我有一个游戏项目,在调试和发布模式下在设备上运行得非常好。我有两个版本。旧版本和新版本具有更多(后来我添加了)功能,并且两者的 bundle ID、版本相同。当我构建旧版本时,之前没有安装“myGam
这个问题已经有答案了: 奥 git _a (2 个回答) 已关闭 5 年前。 我正在获取 ClassCastException 。这两个类来自不同的 jar,但是JettyContinuationPr
以下代码行抛出异常: HttpResponse response = client.execute(request); // actual HTTP request 我能够捕获它并打印: Log
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
public class TwoThreads { private static Object resource = new Object(); private static void
当我输入 6 (int) 作为值时,运行此命令会出现段错误 (gcc filename.c -lm)。请帮助我解决这个问题。预期的功能尚未实现,但我需要知道为什么我已经陷入段错误。 谢谢! #incl
所以,过去一周半我一直在研究这个 .OBJ/.MTL 网格解析器。在这段时间里,我一直在追踪/修复很多错误、清理代码、记录代码等等。 问题是,每修复一个错误,仍然会出现这个问题,而且一张图片胜过一千个
我正在运行一个代码,它基本上围绕 3 个维度旋转一个大数据数组(5000 万行)。但是,我遇到了一个奇怪的问题,我已将其缩小到如何评估旋转矩阵。基本上,对于除绕 x 轴以外的任何旋转,python 代
就在你说这是重复之前,我已经看到了其他问题,但我仍然想发布这个。 所以我正在阅读 Thinking in Java -Bruce Eckel 这篇文章是关于小写命名约定的: In Java 1.0 a
我想在我的应用程序中使用 REST API。它为我从这个应用程序发出的所有请求抛出 SocketTimeoutException。 Logcat 输出:(您也可以在此处看到带有漂亮格式的输出:http
我知道 raise ... from None 并已阅读 How can I more easily suppress previous exceptions when I raise my own
在未能找到各种Unix工具(例如xargs和whatnot)的最新独立二进制文件(this version很好,但需要外部DLL)后,我承担了自己进行编译的挑战。 ...这是痛苦的。 最终,尽管如此,
我有一个用PHP编写的流套接字服务器。 为了查看一次可以处理多少个连接,我用C语言编写了一个模拟器来创建1000个不同的客户端以连接到服务器。 stream_socket_accept几次返回fals
我的Android Studio昨天运行良好,但是今天当我启动Android Studio并想在移动设备上运行应用程序时,发生了以下错误, 我在互联网和stackoverflow上进行了搜索,但没有解
默认情况下,grails似乎为Java域对象的toString()返回:。那当然不是我想要的,所以我尝试@Override toString()返回我想要的。当我尝试grails generate-a
尝试通过LDAP通过LDAP对用户进行身份验证时,出现以下错误。 Reason: Cannot pass null or empty values to constructor. 谁能告诉我做错了什么
我正在尝试使用应用程序附带的 Houdini Python 模块,该模块是 Houdini 安装文件夹的一部分,位于标准 Python 路径之外。按照安装说明操作后,运行 Houdini Termin
简单地说,我正在为基本数据库编写单链表的原始实现。当用户请求打印索引下列出的元素高于数据库中当前记录数量时,我不断出现段错误,但仅当差值为 1 时。对于更高的数字,它只会触发我在那里编写的错误系统。
我是一名优秀的程序员,十分优秀!