gpt4 book ai didi

arm - 现代处理器中 L1 缓存大小的原因

转载 作者:行者123 更新时间:2023-12-03 23:24:37 27 4
gpt4 key购买 nike

我需要根据某些处理器的内存表优化一组算法。我发现自己想知道为什么至少从 2010 年以来每个英特尔处理器都使用每个内核 64KB(32KB 数据,32KB 指令)的 L1 缓存。

为什么他们坚持使用 64KB,即使随着几乎巨大的 L3 缓存的引入而增加其他缓存?

有什么我可以读到的吗?

如果这在 future 5 年或 10 年内会增加,是否有正确的猜测?

我检查了其他供应商,例如 Opterons 提供 64KB + 64KB,但每个模块共享,而 Interlagos(例如)每个内核只有 16KB,每个模块共享 64KB 数据缓存。 Apple 的 A7 和 A8 的每个内核为 64KB + 64KB,但其他供应商使用 64 位 Arm 和 16KB + 16KB。

目前我使用 8KB 表进行设计,但是一旦我必须将两个表混合在一起,这变得更加重要。

最佳答案

L1i 和 L1d 需要低延迟并且(对于 L1d)需要多个读/写端口。 L1d 还需要支持从字节到 32 字节的任何宽度的未对齐加载/存储。 (或者在 AVX512 的 CPU 上为 64 字节)。保持这些缓存较小对于维护这些属性和控制功率非常重要。
体积小也使 VIPT(虚拟索引,物理标记)更容易,这对于最大限度地减少延迟至关重要。 (获取标签+数据与地址高位的 TLB 查找并行。)
Why is the size of L1 cache smaller than that of the L2 cache in most of the processors?有关这些因素的更多详细信息。
将您的功率预算花在其他地方(L1i/L1d 除外)在某个点之后更有值(value)。例如在更好的 OoO exec、更多的加载/存储缓冲区条目或更大的每核私有(private) L2 上,这有点快但不需要多个读/写端口,并且不需要支持未对齐的字节访问:这是关键让 L1d 保持小而共享 L3 变得巨大的变化。

有趣的事实:对于 Ice Lake,英特尔最终通过将关联性从 8 增加到 12 将 L1d 缓存从 32k 提高到 48k(“免费”维护 VIPT 而没有混叠问题)。
这是英特尔自 Pentium-M 以来首次增加 L1。 ,从 Pentium 3 中的 16k + 16k 增加到 32k + 32k。(以及 Pentium 4 中的跟踪缓存 + 16k L1d)。
在 P-M 和 Skylake-X 之间,Intel 大幅提升了 L1d 和 L2 之间的带宽,改进了未对齐的 SIMD 加载/存储,将 SIMD 加载/存储数据路径从 8 个字节扩大到 64 个字节,并增加了另一个缓存读取端口。 (Haswell 和更高版本每个周期可以进行 2 次读取和 1 次写入)。
OTOH,AMD 多年来一直在尝试不同的 L1 配置,但对于 Zen 而言,它选择了与英特尔相同的优秀设计。 (32k,良好的关联性,每核私有(private) L2 缓存支持它,因此 L1d 未命中不是灾难,也不必命中共享缓存。)
也可以看看

  • http://www.lighterra.com/papers/modernmicroprocessors/
  • What Every Programmer Should Know About Memory? - 链接到 PDF 版本,以及我对自编写以来发生的变化的评论(它仍然有用,但现在一些内存带宽因素不同了)。
  • 关于arm - 现代处理器中 L1 缓存大小的原因,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30286138/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com