performance-testing - DRAM 访问的性能计数器-6ren

performance-testing - DRAM 访问的性能计数器

转载作者：行者123 更新时间：2023-12-04 08:02:21

27

4

我想检索 DRAM 访问次数 在我的应用程序中。准确地说，我需要区分在数据和代码访问之间。处理器是 Intel(R) Core(TM) i7-4720HQ CPU @ 2.60GHz (Haswell)。基于 Intel Software Developer's Manual, Volume 3和 Perf , 我可以查找和分类以下与内存访问相关的事件:

(A)
LLC-load-misses                                    [Hardware cache event]
LLC-loads                                          [Hardware cache event]
LLC-store-misses                                   [Hardware cache event]
LLC-stores                                         [Hardware cache event]
=========================================================================
(B)
mem_load_uops_l3_miss_retired.local_dram          
mem_load_uops_retired.l3_miss  
=========================================================================
(C)
offcore_response.all_code_rd.l3_miss.any_response 
offcore_response.all_code_rd.l3_miss.local_dram   
offcore_response.all_data_rd.l3_miss.any_response 
offcore_response.all_data_rd.l3_miss.local_dram   
offcore_response.all_reads.l3_miss.any_response   
offcore_response.all_reads.l3_miss.local_dram     
offcore_response.all_requests.l3_miss.any_response
=========================================================================
(D)
offcore_response.all_rfo.l3_miss.any_response     
offcore_response.all_rfo.l3_miss.local_dram       
=========================================================================
(E)
offcore_response.demand_code_rd.l3_miss.any_response
offcore_response.demand_code_rd.l3_miss.local_dram
offcore_response.demand_data_rd.l3_miss.any_response
offcore_response.demand_data_rd.l3_miss.local_dram
offcore_response.demand_rfo.l3_miss.any_response  
offcore_response.demand_rfo.l3_miss.local_dram    
=========================================================================
(F)
offcore_response.pf_l2_code_rd.l3_miss.any_response
offcore_response.pf_l2_data_rd.l3_miss.any_response
offcore_response.pf_l2_rfo.l3_miss.any_response   
offcore_response.pf_l3_code_rd.l3_miss.any_response
offcore_response.pf_l3_data_rd.l3_miss.any_response
offcore_response.pf_l3_rfo.l3_miss.any_response

我的选择如下面所述:

似乎 LLC-load-misses 的总和和 LLC-store-misses将返回整体 DRAM 访问(等效地，我可以使用LLC-misses在 Perf )。

对于 纯数据 访问，我使用了 mem_load_uops_retired.l3_miss .
它不包括专卖店 , 但似乎是好的 ( 因为商店似乎
成为很多不那么频繁？!)。

简单地说，LLC-load-misses - mem_load_uops_retired.l3_miss =DRAM Accesses for Code (代码为只读 )。

这些是选择吗合理 ?

我的其他问题:(第二个最重要)

什么是local_dram和 any_response ?

起初，似乎是， (C)组 , 是 更高分辨率 的加载事件版本(一)组 .但我的测试表明 中的事件前 组是 更频繁比后者 .例如，在简单基准，offcore_response.all_reads.l3_miss.any_response 的数量事件是两次多达LLC-load-misses .

组(E) , 属于 demand reads (即所有 non-prefetched 读取)。这是否意味着，例如:offcore_response.all_data_rd.l3_miss.any_response - offcore_response.demand_data_rd.l3_miss.any_response = 预取导致的 DRAM 读取访问 ?

D组 , 包括由 Read for Ownership 引起的 DRAM 访问事件操作(用于 Cache Coherency 协议(protocol))。好像 无关的我的问题。
群(女) ，计数由 L2-cache 引起的 DRAM 读取 预取器 这也是 无关的我的问题。

最佳答案

根据我对问题的理解，我建议在指定处理器上使用以下两个事件:

OFFCORE_RESPONSE.ALL_READS.L3_MISS.LOCAL_DRAM :这包括所有可缓存的数据读写事务和所有代码获取事务，无论事务是由指令(退休与否)或预取或任何类型启动的。每个事件恰好代表对内存 Controller 的 64 字节读取请求。

OFFCORE_RESPONSE.ALL_CODE_RD.L3_MISS.LOCAL_DRAM :这包括对 IMC 的所有代码提取访问。

(我认为对于不可缓存的代码获取请求，这两个事件都不会发生，但我没有对此进行测试，并且文档对此并不清楚。)
通过从第一个事件中减去第二个事件，可以将“数据访问”与“代码访问”分开测量。这两个事件可以在 Haswell 上的同一个逻辑核心上同时计数，无需多路复用。
当然，还有其他交易确实会进入 IMC，但不计入上述两个事件中的任何一个。其中包括:(1) L3 写回，(2) 来自内核的不可缓存的部分读写，(3) 完全 WCB 驱逐，以及 (4) 来自 IO 设备的内存访问。根据工作负载，类型 (1)、(3) 和 (4) 的访问可能构成对 IMC 的总访问的很大一部分。

It seems that the sum of LLC-load-misses and LLC-store-misses willreturn the whole DRAM accesses (equivalently, I could use LLC-missesin Perf).

请注意以下事项:

事件LLC-load-misses是 perf映射到 native 事件的事件 OFFCORE_RESPONSE.DEMAND_DATA_RD.L3_MISS.ANY_RESPONSE .

事件LLC-store-misses映射到 OFFCORE_RESPONSE.DEMAND_RFO.L3_MISS.ANY_RESPONSE .

这些不是您想要的事件，因为:

ANY_RESPONSE bit 指示事件可以针对针对任何单元的请求发生，而不仅仅是 IMC。

这些事件计算 L1 数据预取和页面遍历请求，但不计算 L2 数据预取。您通常需要计算所有消耗内存带宽的预取。

For data-only accesses, I used mem_load_uops_retired.l3_miss. It doesnot include stores, but seems to be OK (because stores seem to be muchless frequent?!).

使用 mem_load_uops_retired.l3_miss 存在许多问题在哈斯韦尔:

在某些情况下，此事件是不可靠的，因此如果有替代方案，则应避免。否则，分析方法应考虑此事件计数的潜在不可靠性。

该事件仅发生在来自退役负载的请求中，它忽略了推测性负载和所有存储，这可能很重要。

以有意义的方式对这些事件和其他事件进行算术运算并不容易。例如，您执行“LLC-load-misses - mem_load_uops_retired.l3_miss = DRAM Accesses for Code”的建议是不正确的。

What are local_dram and any_response?

并非所有在 L3 中遗漏的请求都会发送到 IMC。一个典型的例子是内存映射的 IO 请求。你说你只想要发往 IMC 的核心发起的请求，所以 local_dram是正确的位。

At first, it seems that, group (C), is a higher resolution version ofthe load events of group (A). But my tests show that the events in theformer group is much more frequent than the latter. For example, in asimple benchmark, the number ofoffcore_response.all_reads.l3_miss.any_response events were twice asmany as LLC-load-misses.

这是正常的，因为 offcore_response.all_reads.l3_miss.any_response包括 LLC-load-misses并且很容易变得更大。

Group (E), pertains to demand reads (i.e., all non-prefetched reads).Does this mean that, e.g.:offcore_response.all_data_rd.l3_miss.any_response -offcore_response.demand_data_rd.l3_miss.any_response = DRAM readaccesses caused by prefeching?

没有为什么:

any_response位如上所述，

此减法仅导致 L2 数据加载预取，而不是所有数据加载硬件和软件预取。

关于performance-testing - DRAM 访问的性能计数器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66392569/

27

4

0

文章推荐： javascript - p5.js: slider 未正确更新

文章推荐： java - 如何在 Java Android Studio 中验证日月和年，

c++ - map 计数器；计数器[nums[i]]++；
我在leetcode上看到这段代码，是一道求众数的题，下面是题目描述: 给定一个大小为 n 的数组，找到多数元素。众数元素是出现次数超过 ⌊ n/2 ⌋ 次的元素。你可以假设数组是非空的并且多数元素
JavaScript 计数器
每次在 JavaScript 中执行特定操作时，例如: $(function() { $('#typing').keyup(function () { switch($(this)
用于大小数字的 Javascript 计数器
我一直在为网页设计一个计数器，但我一直被这个我无法解决的功能所困扰。我有一个 4 个 div 的计数器，因为其中两个是小数字，另外两个是大数字，所以第一个运行得很快，我看不到它们的功能。有人知道如
Jquery every() 计数器
我已经在文档中进行了一些搜索，并在网上花了一段时间，但找不到解决方案!我希望警报告诉我单击 .thumb 时它处于each() 的哪一次迭代。 EG:有六个.thumb，我点击数字3，浏览器弹出3!
javascript - Handlebars 计数器#each
在 Handlebars 中，假设我有 names 的集合.我能怎么做 {{#each names}} {{position}} {{name}} {{/each}} 在哪里 {{position}}
r - 为数据帧的每组中的行创建一个序列号(计数器)
这个问题在这里已经有了答案: Numbering rows within groups in a data frame (9 个回答) 4年前关闭。我们如何在数据帧的每组中生成唯一的 ID 号？以下
数字序列的 SAS 计数器
我正在努力解决以下问题。我希望为给定的“一”序列创建一个计数器。例如，我有以下内容: 1 1 1 1 0 0 1 1 1 0 0 1 1 1 1 鉴于该序列，我希望为 1 的每个序列设置一个计数器直到
数字序列的 SAS 计数器
我正在努力解决以下问题。我希望为给定的“一”序列创建一个计数器。例如，我有以下内容: 1 1 1 1 0 0 1 1 1 0 0 1 1 1 1 鉴于该序列，我希望为 1 的每个序列设置一个计数器直到
带小数位的 JavaScript 计数器
我有一个jsfiddle here 这是一个简单的 JavaScript 函数，可以计算出设定的数字。是否可以进行这种计数，但也保留一位小数所以它算 1.1、1.2、1.3 等。 func
具有最大值和最小值的 jQuery 计数器
我正在构建一个计数器，当我按下鼠标时，它应该增加到 maxValue 并且减少不超过 0。我还可以选择将计数器重置为其初始值:0。另外，如果 maxValue 是偶数，它应该计数到该数字。但是，如果
特定标点符号的 C 计数器
所以我成功地为字母和单词构建了其他计数器，但现在我只能用这个来计算句子。我的代码如下，当我运行它时，它会返回很多错误消息: #include #include #include int main
c - C回路，计数器
Closed. This question is off-topic。它当前不接受答案。
具有最近一小时值的 Java 计数器
我需要一个计数器，它会随着某些任务的完成而递增。我们只需要最后一小时的值，即窗口将移动而不是静态时间。解决此问题的最佳方法是什么？我能想到的一种方法是拥有一个大小为 60 的数组，每分钟一个，并更新
PHP 计数器，用于从按钮获取唯一引用
我希望使用计数器来为我提供独特的引用系统。我想单击一个按钮，然后检查一个字段/文件中的最后一个数字，然后简单地向其添加 1，然后将其插入到屏幕上的字段中？不确定执行此操作的最佳方法或具体如何执行此操
PHP 类似表格内的按钮(计数器)
我有一个用 php 制作的表格，在该表格内我显示了数据库中的一些内容。我在每个 td 中创建了一个简单的按钮(类似于 Like)，我希望每次点击它都会增加 1。这是带有按钮的行: echo "
c# - if (计数器==<数据库值>)
如何将数据库中的值转换为可用于 if else 函数的 int 值？例如:在我的数据库“armnumber = 3”中，如何在 if else 函数中使用它？代码 string myConnect
针对特定情况的 MySQL 计数器
我需要生成唯一的“ids”，问题是，它只能在 1 - 99999 之间。 “好”的是，它仅在与另一列组合时必须是唯一的。我们有组，每个组都有自己的“group_id”，每个组都需要类似 unique
Mysql计数器字段。计数器 + 1
有这个简单的代码: UPDATE counter SET c= c +1 where id = 1; 并且它在开头的 c 字段中为 null 的情况下不起作用。它只有在已经输入了一些数字时才有效，也就
带闭包的 python 计数器
我正在尝试在 python 中构建一个具有闭包属性的计数器。以下工作中的代码: def generate_counter(): CNT = [0] def add_one():
用文字写出的 CSS 计数器
我使用 CSS 来计算 HTML 文档中的部分: body {counter-reset: sect;} section:before { counter-increment: sect;

首页

博学

6Ren·AI

商城

performance-testing - DRAM 访问的性能计数器