caching - 不同级别的缓存是否在同一频域中运行？-6ren

caching - 不同级别的缓存是否在同一频域中运行？

转载作者：行者123 更新时间：2023-12-03 02:14:40

25

4

较大的高速缓存通常具有较长的位线或字线，因此很可能具有较高的访问延迟和循环时间。

那么，L2缓存与L1缓存在同一域中工作吗？ L3缓存（片）现在是非包含性的，并且在所有内核之间共享，怎么样？

和相关的问题是：
所有功能单元是否都在同一时钟域的内核中？
非核心部分是否都在同一时钟域中？
多核系统中的核是否同步？

我相信跨时钟域会引入额外的延迟。 CPU芯片中的大多数部件是否在同一时钟域上工作？

最佳答案

专用L1i / d高速缓存始终是每个内核的一部分，而不是在单独的时钟上。 L1d与负载执行单元以及L1dTLB紧密耦合。在整个体系结构中，这都是普遍适用的。（VIPT Cache: Connection between TLB & Cache?）
在具有每核专用L2高速缓存的CPU上，它也是同一频域中核心的一部分。通过保持定时（以核心时钟周期为单位）固定，并且不需要任何异步逻辑来跨时钟域传输数据，从而使L2延迟非常低。在Intel和AMD x86 CPU上都是如此，我假设大多数其他设计。

该答案的其余部分主要是关于Intel x86 CPU的，因为从您提到的L3 slice来看，我认为这就是您的想象。

L3缓存（片）现在是非包含性的，并且在所有内核之间共享，怎么样？

在主流的Intel CPU（P6 / SnB系列）中，只有Skylake-X具有不包含在内的L3缓存。自从Nehalem使用了包含性的最后一级缓存以来，Intel便可以将其标签用作探听过滤器。请参见Which cache mapping technique is used in intel core i7 processor?。但是，SKX从环形更改为网格，使L3不再包含/非包含。

在Intel台式机/笔记本电脑CPU（双/四核）上，所有内核（包括其L1 + L2高速缓存）都在相同的频域中。 Uncore（L3缓存+环形总线）位于单独的频域中，但我认为通常以内核的速度运行。如果GPU繁忙，但所有内核均处于空闲状态，则时钟频率可能高于内核。
即使CPU时钟下降，内存时钟仍保持高电平。（仍然，如果CPU决定将时钟频率从4.0降至2.7GHz，则单核带宽可能会受到影响，因为它在唯一活动的内核上运行内存绑定代码。单核带宽受max_concurrency / latency的限制，而不是受DRAM带宽本身的限制。如果您有双通道DDR4或DDR3。Why is Skylake so much better than Broadwell-E for single-threaded memory throughput?我认为这是由于增加了非核心延迟。）
wikipedia Uncore article提到将其与内核分开进行超频以减少L3 /内存延迟。

在Haswell和更高版本的Xeons（E5 v3）上，uncore（环形总线和L3 slice）和每个单独的内核具有单独的频域。（来源：弗兰克·丹纳曼（Frank Denneman）的NUMA Deep Dive Part 2: System Architecture。它有一个错字，说当Haswell实际上是至强E [357] -xxxx v3时，Haswell（v4）。但是类似本文Comparisons of core and uncore frequency scaling modes in quantum chemistry application GAMESS的其他来源也证实Haswell确实具有这些功能。频率缩放（UFS）和每核功率状态（PCPS）在Haswell中都是新的。

在Haswell之前的Xeons上，uncore以该程序包上当前最快的core的速度运行。在双插槽NUMA设置上，这可能使另一个套接字严重滞后于侦听请求，从而严重瓶颈。参见John“带宽博士” McCalpin在this Intel forum thread上的帖子：

在Xeon E5-26xx处理器上，“ uncore”（包含L3高速缓存，环形互连，内存控制器等）的运行速度不会比最快的core快，因此“ package C1E状态”会导致uncore也降至1.2 GHz。在这种状态下，芯片需要更长的时间来响应QPI监听请求，这增加了另一芯片上的处理器和DMA引擎看到的有效本地内存延迟！
...在我的Xeon E5-2680芯片上，“封装C1E”状态将另一块芯片上的本地延迟增加了近20％
“封装C1E状态”还使位于“空闲”芯片上的内存的持续带宽减少了多达25％，因此任何NUMA放置错误都会产生更大的性能损失。

Bandwidth博士运行了一个固定在另一个插槽上的核心的简单无限循环，以使其保持时钟运行，并能够测量出差异。
具有四路套接字功能的Xeon（E7-xxxx）在每个套接字中都有一个小的探听过滤器缓存。双路套接字系统仅在每个侦听请求都向另一个套接字发送垃圾邮件，即使在L3丢失后正在访问自己的本地DRAM时，也使用相当一部分QPI带宽。

我认为，即使所有内核都处于空闲状态，Broadwell和Haswell Xeon仍可以保持其非内核时钟较高，正是为了避免这一瓶颈。
带宽博士说，他在Haswell Xeons上禁用了程序包C1E状态，但这可能不是必需的。他还posted some stuff关于使用Uncore性能计数器测量非核心频率以找出您的CPU真正在做什么，以及有关可能会影响非核心频率决策的BIOS设置。

更多背景信息：我发现https://www.anandtech.com/show/8423/intel-xeon-e5-version-3-up-to-18-haswell-ep-cores-/4涉及到一些变化，例如新的探听模式选项（在环形总线上跳的事件将探听发送到另一个内核），但是没有提到时钟。

关于caching - 不同级别的缓存是否在同一频域中运行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54796419/

25

4

0

文章推荐： php - 如何在 Docker 容器中安装 PHP Composer

文章推荐： ms-access - 微软 Access -vba : Compile Error: expected: =

文章推荐： java - 在java中函数的返回中应用强制转换？

文章推荐： sql - 数据仓库重复维度行

android - 最小 sdk 级别太低(如 8 sdk 级别)和目标 sdk 更高 sdk 级别(如 23 sdk 级别)有什么影响？
Android 项目中最低(最低 sdk)和最高(目标 sdk)级别是否有任何影响。这些东西是否会影响项目的可靠性和效率。最佳答案没有影响，如果您以 SDK 级别 8 为目标，那么您的应用将以 9
android - 此编译器不支持 API 级别 31。请使用 30 或更早的 API 级别
我将现有的 android 项目升级到 API 级别 31。我使用 Java 作为语言。我改变了 build.gradle compileSdkVersion 31 defaultConfig {
android - Ionic 应用程序以 API 级别 25 为目标，并且必须至少以 API 级别 26 为目标
我正在使用 ionic 3 创建一个 android 应用程序，当我尝试上传到 playstore 时，我收到一个错误，提示我的应用程序以 api 25 为目标，当我检查我的 project.prop
android - 当针对目标 API 级别 29 进行编译时，能否在 Android API 级别 < 24 上访问 NMEA？
我刚刚尝试将应用程序的目标和编译 API 级别更新为 29 (Android 10)，并注意到我无法再编译，因为 LocationManager.addNmeaListener 只接受 OnNmeaM
version-control - 我的工具栏未在 API 级别 19 (Kitkat) 上显示，而在 API 级别 21 上显示
我的代码没有在 Kitkat 上显示工具栏。这是我的两个 Android 版本的屏幕截图。 Kitkat 版本: Lollipop 版: 这背后的原因可能是什么。 list 文件
android - 在 API 级别 8 上使用 API 级别 18 的 Android AccessabilityService 功能
我正在构建面向 API 级别 8 的 AccessabilityService，但我想使用 API 级别 18 中引入的功能 (getViewIdResourceName())。这应该可以通过使用 A
Android 4.0 - API 级别 14 与谷歌 API(谷歌公司)- API 级别 14 : What is the difference?
当我想在我的电脑上创建一个 android 虚拟机时，有两个选项可以选择目标设备。它们都用于相同的 API 级别。那么我应该选择哪一个呢？它们之间有什么区别？最佳答案一个是基本的 Android，
performance - 在 Windows 上选择 Google API(API 级别 17 或任何其他 API 级别)时，Android 模拟器不加载
当我选择 tagret 作为 Android 4.2.2(API 级别 17)时，模拟器需要很长时间来加载和启动。所以我研究它并通过使用找到了解决方案Intel Atom(x86) 而不是 ARM
android - Debug 间接依赖于 Android API 级别 X，但变体 'debug' 的 minSdkVersion 是 API 级别 Y
我有一个使用 Android Studio 创建的 Android 项目。我在项目中添加了一些第三方依赖项，但是当我尝试在 Android Studio 中编译时，我遇到了以下错误: Error:Ex
android - 在 Android 中，NetworkInterface.getInterfaceAddresses() 需要 API 级别 9。如何使用 API 级别 8 执行此操作？
如上所述，如何使用 API 8 获取移动设备网络接口(interface)地址？最佳答案 NetworkInterface.getInetAddresses() 在 API8 中可用。关于andr
android - 为什么将 ImageSpan 添加到 Snackbar 的操作文本在 Android 设备 SDK 级别 26 上有效，但在 SDK 级别 25 上无效？
我想显示 Snackbar并使用图像而不是文本进行操作。我使用以下代码: val imageSpan = ImageSpan(this, R.drawable.star) val b
不同系统中的Python日志显示不同的格式/级别
我有一个用 python 编写的简单命令行程序。程序使用按以下方式配置的日志记录模块将日志记录到屏幕: logging.basicConfig(level=logging.INFO, format='
Pygame 级别/菜单状态
使用下面的代码，实现游戏状态以控制关卡的最简单和最简单的方法是什么？如果我想从标题画面开始，然后加载一个关卡，并在完成后进入下一个关卡？如果有人能解释处理这个问题的最简单方法，那就太好了! impor
c# - 查找嵌套集合的最大深度/级别
我想创建一个可以找到嵌套树结构深度的属性。下面的静态通过递归找出深度/级别。但是是否可以将此函数作为同一个类中的属性而不是静态方法？ public static int GetDepth(MenuGr
Javascript 树标签/级别
var myArray = [{ title: "Title 1", children: [{ title: "Title 1.1", children: [{
Pygame 级别/菜单状态
通过下面的代码，实现游戏状态来控制关卡的最简单、最容易的方法是什么？如果我想从标题屏幕开始，然后加载一个关卡，并在完成后进入下一个关卡？如果有人可以解释处理这个问题的最简单方法，那就太好了! impo
algorithm - 如何找到非二叉树中节点的深度/级别？
我有一个树结构，其中每个节点基本上可以有无限个子节点，它正在为博客的评论建模。根据特定评论的 ID，我试图找出该评论在树中的深度/级别。我正在关注 this guide that explains
arrays - 如何确定整数数组已经排序的程度/级别
考虑任何给定的唯一整数的数组，例如[1,3,2,4,6,5] 如何确定“排序度”的级别，范围从 0.0 到 1.0 ? 最佳答案一种方法是评估必须移动以使其排序的项目数量，然后将其除以项目总数。作
c++ - 我如何定义一个模板类来给出类型的指针深度/级别？
我如何定义一个模板类，它提供一个整数常量，表示作为输入模板参数提供的(指针)类型的“深度”？例如，如果类名为 Depth，则以下内容为真: Depth::value == 3 Depth::value
c# - 如何为不同的接收器以不同的方式覆盖 Serilog 级别？
我的场景是:文件接收器应该包含所有内容。另一个接收器应包含信息消息，但需要注意的是 Microsoft.* 消息很烦人，因此这些消息应仅限于警告。两个sink怎么单独配置？我尝试的第一件事是: str

首页

博学

6Ren·AI

商城

caching - 不同级别的缓存是否在同一频域中运行？