- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 PAPI 高级 API 检查循环遍历数组的简单程序中的 TLB 未命中,但看到的数字比预期的要大。
在其他简单的测试用例中,结果似乎相当合理,这让我认为结果是真实的,额外的未命中是由于硬件预取或类似原因造成的。
任何人都可以解释这些数字或指出我在使用 PAPI 时的一些错误吗?
int events[] = {PAPI_TLB_TL};
long long values[1];
char * databuf = (char *) malloc(4096 * 32);
if (PAPI_start_counters(events, 1) != PAPI_OK) exit(-1);
if (PAPI_read_counters(values, 1) != PAPI_OK) exit(-1); //Zeros the counters
for(int i=0; i < 32; ++i){
databuf[4096 * i] = 'a';
}
if (PAPI_read_counters(values, 1) != PAPI_OK) exit(-1); //Extracts the counters
printf("%llu\n", values[0]);
我预计打印的数字在 32 左右,或者至少是一些倍数,但始终得到 93 或更高的结果(并非始终高于 96,即并非每次迭代仅错失 3 次)。我正在运行固定到一个核心上,上面没有其他任何东西(除了定时器中断)。
我在 Nehalem 上并且没有使用大页面,所以 DTLB 中有 64 个条目(L2 中有 512 个条目)。
最佳答案
基于评论:
malloc()
,将失误约 90 次。calloc()
或如果数组是事先迭代过的,则 32 次未命中。原因是惰性分配。在您触摸内存之前,操作系统实际上不会为您提供内存。
当您第一次触摸页面时,会导致页面错误。操作系统将捕获此页面错误并即时正确分配它(which involves zeroing 等)。这是导致所有这些额外的 TLB 未命中的开销。
但是,如果您使用 calloc()
或提前接触所有内存,则可以将此开销移至启动计数器之前。因此结果较小。
至于剩下的32个失手……我就不知道了。
(或者如评论中所述,可能是 PAPI 干扰。)
关于c - 在 x86 上的简单 PAPI 分析中意外出现大量 TLB 未命中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14960116/
我有一个 C# dll 并使用 regasm 生成了一个 tlb。我已经为使用此 tlb 的用户提供了一个实用程序电子表格。每次发布我们的应用程序的新版本时,tlb 都会取消注册和注册(使用 rega
我编写了一个简单的 C++ 程序,使用 for 循环打印从 1 到 100 的数字。我想找出特定程序在运行时发生的 TLB 命中数和未命中数。有没有可能得到这些数据? 我正在使用 Ubuntu。我用过
谁能解释一下“Register for COM Interop”与 “regasm.exe xxxx.dll/tlb:xxxx.tlb” 之间的区别。 根据我的理解,“Register for COM
有人可以解释一下 TLB(翻译后备缓冲区)未命中和缓存未命中之间的区别吗? 我相信我发现 TLB 指的是某种虚拟内存地址,但我并不太清楚这实际上意味着什么? 我理解当一块内存(缓存线的大小)加载到(L
TLB 层次结构是否包含在现代 x86 CPU 上(例如 Skylake,或者其他 Lake)? 例如,prefetchtn将数据带到一级缓存n + 1以及DTLB中相应的TLB条目。它也会包含在 S
所以我正在研究这个执行一些页表操作的内核模块,我注意到刷新 TLB 条目很慢。你问多慢?每次调用 invlpg 的时间超过 100 ns!即 280 个周期或更多。我愿意接受这一点......但是对于
我听说 TLB 是由 MMU 维护的,而不是 CPU 缓存。 那么CPU上是否存在一个TLB并在所有处理器之间共享,或者每个处理器都有自己的TLB缓存? 谁能解释一下MMU和L1、L2 Cache之间
我正在开发一个通过 COM 互操作公开一些 .NET API 的产品。作为构建的一部分,我们为所有此类程序集生成 *.tlb 文件,并将它们作为单独 SDK 包的一部分提供。我们的客户可以在我们的产品
假设我们有意破坏 DTLB,并希望在(很可能)与地址不相交的内存区域上使用 clflush 继续刷新 L1-3 的特定缓存行由 TLB 条目指向;这实际上会将我们正在刷新的缓存行的页面基地址带回 TL
我在 VxWorks 中遇到 TLB(加载字或指令获取)异常。当我进一步分析时,我了解到所引用的内存地址并未指向有效的内存位置。 据我了解,此问题可能是由于某些内存损坏(可能是内存覆盖)而发生的。但是
我对操作系统中的内存管理有疑问。我知道缓存是用于加速内存访问的临时存储位置,而 TLB 用于加速从虚拟地址到物理地址的转换。 现在如果生成一个虚拟内存地址,第一步是什么? 如果第一步是引用 TLB 并
我有一个 32 位 DLL,旨在通过 com 模型和关联的 tlb 文件进行访问。 DLL 似乎是 x86。 有什么方法可以从 x64 程序访问这种 DLL 吗? tlb 文件是否与 x86/x64
我有一个 .tlb 文件,它通过 COM 公开了 C# DLL 的函数。我希望在运行时加载此 .tlb 并在我的 native 项目中使用这些函数。 虽然我可以使用 LoadTypeLib 函数加载库
页表将每个虚拟页面与其关联的物理框架相关联。TLB 的作用相同,只是它只包含页表的一个子集。 如果页表做同样的事情并且有更多的数据,TLB的目的是什么? 最佳答案 速度。 TLB 是保存(可能)最近使
内存屏障保证数据缓存是一致的。但是,它是否保证 TLB 是一致的? 我看到一个问题,即在线程之间传递 MappedByteBuffer 时,JVM(java 7 update 1)有时会因内存错误(S
我遇到了以下问题,我不确定如何解决它: Consider a virtual memory system with the following properties: · 35-bit virtual
我有一个非常简单的问题,QEMU 是否模拟 TLB?当 guest linux 系统执行“invlpg”指令时会发生什么,因为它是为了使 TLB 条目无效。我知道 QEMU 有 softmmu lin
我正在努力解决这个问题(好吧,在考试前一个晚上塞满了:)但我无法弄清楚(也无法在网上找到一个很好的高级概述): '页表条目可以映射到多个 TLB 条目。例如,如果每个页表条目都映射到两个 TLB 条目
假设页面大小为 1KB,如何计算类似以下代码片段的代码中的 TLB 未命中数: int i; int p[1024]; for (i=0; i<1024; i++) p[i]=0; 除了知道#
我目前的工作需要在 Intel Core 系列的 CPU 上生成指定数量的 TLB 未命中,但进展并不顺利。我尝试了很多方法,但所有方法的 TLB 命中率都非常高。有谁知道一些关于 x86 TLB 如
我是一名优秀的程序员,十分优秀!