- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
较大的高速缓存通常具有较长的位线或字线,因此很可能具有较高的访问延迟和循环时间。
那么,L2缓存与L1缓存在同一域中工作吗? L3缓存(片)现在是非包含性的,并且在所有内核之间共享,怎么样?
和相关的问题是:
所有功能单元是否都在同一时钟域的内核中?
非核心部分是否都在同一时钟域中?
多核系统中的核是否同步?
我相信跨时钟域会引入额外的延迟。 CPU芯片中的大多数部件是否在同一时钟域上工作?
最佳答案
专用L1i / d高速缓存始终是每个内核的一部分,而不是在单独的时钟上。 L1d与负载执行单元以及L1dTLB紧密耦合。在整个体系结构中,这都是普遍适用的。 (VIPT Cache: Connection between TLB & Cache?)
在具有每核专用L2高速缓存的CPU上,它也是同一频域中核心的一部分。通过保持定时(以核心时钟周期为单位)固定,并且不需要任何异步逻辑来跨时钟域传输数据,从而使L2延迟非常低。在Intel和AMD x86 CPU上都是如此,我假设大多数其他设计。
该答案的其余部分主要是关于Intel x86 CPU的,因为从您提到的L3 slice来看,我认为这就是您的想象。
L3缓存(片)现在是非包含性的,并且在所有内核之间共享,怎么样?
在主流的Intel CPU(P6 / SnB系列)中,只有Skylake-X具有不包含在内的L3缓存。自从Nehalem使用了包含性的最后一级缓存以来,Intel便可以将其标签用作探听过滤器。请参见Which cache mapping technique is used in intel core i7 processor?。但是,SKX从环形更改为网格,使L3不再包含/非包含。
在Intel台式机/笔记本电脑CPU(双/四核)上,所有内核(包括其L1 + L2高速缓存)都在相同的频域中。 Uncore(L3缓存+环形总线)位于单独的频域中,但我认为通常以内核的速度运行。如果GPU繁忙,但所有内核均处于空闲状态,则时钟频率可能高于内核。
即使CPU时钟下降,内存时钟仍保持高电平。 (仍然,如果CPU决定将时钟频率从4.0降至2.7GHz,则单核带宽可能会受到影响,因为它在唯一活动的内核上运行内存绑定代码。单核带宽受max_concurrency / latency的限制,而不是受DRAM带宽本身的限制。如果您有双通道DDR4或DDR3。Why is Skylake so much better than Broadwell-E for single-threaded memory throughput?我认为这是由于增加了非核心延迟。)
wikipedia Uncore article提到将其与内核分开进行超频以减少L3 /内存延迟。
在Haswell和更高版本的Xeons(E5 v3)上,uncore(环形总线和L3 slice)和每个单独的内核具有单独的频域。 (来源:弗兰克·丹纳曼(Frank Denneman)的NUMA Deep Dive Part 2: System Architecture。它有一个错字,说当Haswell实际上是至强E [357] -xxxx v3时,Haswell(v4)。但是类似本文Comparisons of core and uncore frequency scaling modes in quantum chemistry application GAMESS的其他来源也证实Haswell确实具有这些功能。频率缩放(UFS)和每核功率状态(PCPS)在Haswell中都是新的。
在Haswell之前的Xeons上,uncore以该程序包上当前最快的core的速度运行。在双插槽NUMA设置上,这可能使另一个套接字严重滞后于侦听请求,从而严重瓶颈。参见John“带宽博士” McCalpin在this Intel forum thread上的帖子:
在Xeon E5-26xx处理器上,“ uncore”(包含L3高速缓存,环形互连,内存控制器等)的运行速度不会比最快的core快,因此“ package C1E状态”会导致uncore也降至1.2 GHz。在这种状态下,芯片需要更长的时间来响应QPI监听请求,这增加了另一芯片上的处理器和DMA引擎看到的有效本地内存延迟!
...在我的Xeon E5-2680芯片上,“封装C1E”状态将另一块芯片上的本地延迟增加了近20%
“封装C1E状态”还使位于“空闲”芯片上的内存的持续带宽减少了多达25%,因此任何NUMA放置错误都会产生更大的性能损失。
Bandwidth博士运行了一个固定在另一个插槽上的核心的简单无限循环,以使其保持时钟运行,并能够测量出差异。
具有四路套接字功能的Xeon(E7-xxxx)在每个套接字中都有一个小的探听过滤器缓存。双路套接字系统仅在每个侦听请求都向另一个套接字发送垃圾邮件,即使在L3丢失后正在访问自己的本地DRAM时,也使用相当一部分QPI带宽。
我认为,即使所有内核都处于空闲状态,Broadwell和Haswell Xeon仍可以保持其非内核时钟较高,正是为了避免这一瓶颈。
带宽博士说,他在Haswell Xeons上禁用了程序包C1E状态,但这可能不是必需的。他还posted some stuff关于使用Uncore性能计数器测量非核心频率以找出您的CPU真正在做什么,以及有关可能会影响非核心频率决策的BIOS设置。
更多背景信息:我发现https://www.anandtech.com/show/8423/intel-xeon-e5-version-3-up-to-18-haswell-ep-cores-/4涉及到一些变化,例如新的探听模式选项(在环形总线上跳的事件将探听发送到另一个内核),但是没有提到时钟。
关于caching - 不同级别的缓存是否在同一频域中运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54796419/
Android 项目中最低(最低 sdk)和最高(目标 sdk)级别是否有任何影响。这些东西是否会影响项目的可靠性和效率。 最佳答案 没有影响,如果您以 SDK 级别 8 为目标,那么您的应用将以 9
我将现有的 android 项目升级到 API 级别 31。我使用 Java 作为语言。我改变了 build.gradle compileSdkVersion 31 defaultConfig {
我正在使用 ionic 3 创建一个 android 应用程序,当我尝试上传到 playstore 时,我收到一个错误,提示我的应用程序以 api 25 为目标,当我检查我的 project.prop
我刚刚尝试将应用程序的目标和编译 API 级别更新为 29 (Android 10),并注意到我无法再编译,因为 LocationManager.addNmeaListener 只接受 OnNmeaM
我的代码没有在 Kitkat 上显示工具栏。 这是我的两个 Android 版本的屏幕截图。 Kitkat 版本: Lollipop 版: 这背后的原因可能是什么。 list 文件
我正在构建面向 API 级别 8 的 AccessabilityService,但我想使用 API 级别 18 中引入的功能 (getViewIdResourceName())。这应该可以通过使用 A
当我想在我的电脑上创建一个 android 虚拟机时,有两个选项可以选择目标设备。它们都用于相同的 API 级别。那么我应该选择哪一个呢?它们之间有什么区别? 最佳答案 一个是基本的 Android,
当我选择 tagret 作为 Android 4.2.2(API 级别 17)时,模拟器需要很长时间来加载和启动。 所以我研究它并通过使用 找到了解决方案Intel Atom(x86) 而不是 ARM
我有一个使用 Android Studio 创建的 Android 项目。我在项目中添加了一些第三方依赖项,但是当我尝试在 Android Studio 中编译时,我遇到了以下错误: Error:Ex
如上所述,如何使用 API 8 获取移动设备网络接口(interface)地址? 最佳答案 NetworkInterface.getInetAddresses() 在 API8 中可用。 关于andr
我想显示 Snackbar并使用图像而不是文本进行操作。 我使用以下代码: val imageSpan = ImageSpan(this, R.drawable.star) val b
我有一个用 python 编写的简单命令行程序。程序使用按以下方式配置的日志记录模块将日志记录到屏幕: logging.basicConfig(level=logging.INFO, format='
使用下面的代码,实现游戏状态以控制关卡的最简单和最简单的方法是什么?如果我想从标题画面开始,然后加载一个关卡,并在完成后进入下一个关卡?如果有人能解释处理这个问题的最简单方法,那就太好了! impor
我想创建一个可以找到嵌套树结构深度的属性。下面的静态通过递归找出深度/级别。但是是否可以将此函数作为同一个类中的属性而不是静态方法? public static int GetDepth(MenuGr
var myArray = [{ title: "Title 1", children: [{ title: "Title 1.1", children: [{
通过下面的代码,实现游戏状态来控制关卡的最简单、最容易的方法是什么?如果我想从标题屏幕开始,然后加载一个关卡,并在完成后进入下一个关卡?如果有人可以解释处理这个问题的最简单方法,那就太好了! impo
我有一个树结构,其中每个节点基本上可以有无限个子节点,它正在为博客的评论建模。 根据特定评论的 ID,我试图找出该评论在树中的深度/级别。 我正在关注 this guide that explains
考虑任何给定的唯一整数的数组,例如[1,3,2,4,6,5] 如何确定“排序度”的级别,范围从 0.0 到 1.0 ? 最佳答案 一种方法是评估必须移动以使其排序的项目数量,然后将其除以项目总数。 作
我如何定义一个模板类,它提供一个整数常量,表示作为输入模板参数提供的(指针)类型的“深度”?例如,如果类名为 Depth,则以下内容为真: Depth::value == 3 Depth::value
我的场景是:文件接收器应该包含所有内容。另一个接收器应包含信息消息,但需要注意的是 Microsoft.* 消息很烦人,因此这些消息应仅限于警告。两个sink怎么单独配置?我尝试的第一件事是: str
我是一名优秀的程序员,十分优秀!