c++ - 没有意义的 CPU 测量(缓存未命中/命中)-6ren

c++ - 没有意义的 CPU 测量(缓存未命中/命中)

转载作者：行者123 更新时间：2023-11-27 22:58:23

29

4

我使用 Intel PCM 进行细粒度的 CPU 测量。在我的代码中，我试图测量缓存效率。

基本上，我首先将一个小数组放入 L1 缓存(通过多次遍历)，然后启动计时器，再遍历数组一次(希望使用缓存)，然后关闭计时器。

PCM 显示我的 L2 和 L3 未命中率相当高。我还检查了 rdtscp，每个数组操作的周期为 15(这比访问 L1 缓存的 4-5 个周期高得多)。

我希望数组完全放在 L1 缓存中，我不会有高 L1、L2 和 L3 未命中率。

我的系统L1、L2、L3分别有32K、256K、25M。这是我的代码:

static const int ARRAY_SIZE = 16;

struct MyStruct {
    struct MyStruct *next;
    long int pad;
}; // each MyStruct is 16 bytes

int main() {
    PCM * m = PCM::getInstance();
    PCM::ErrorCode returnResult = m->program(PCM::DEFAULT_EVENTS, NULL);
    if (returnResult != PCM::Success){
        std::cerr << "Intel's PCM couldn't start" << std::endl;
        exit(1);
    }

    MyStruct *myS = new MyStruct[ARRAY_SIZE];

    // Make a sequential liked list,
    for (int i=0; i < ARRAY_SIZE - 1; i++){
        myS[i].next = &myS[i + 1];
        myS[i].pad = (long int) i;
    }
    myS[ARRAY_SIZE - 1].next = NULL;
    myS[ARRAY_SIZE - 1].pad = (long int) (ARRAY_SIZE - 1);

    // Filling the cache
    MyStruct *current;
    for (int i = 0; i < 200000; i++){
        current = &myS[0];
        while ((current = current->n) != NULL)
            current->pad += 1;
    }

    // Sequential access experiment
    current = &myS[0];
    long sum = 0;

    SystemCounterState before = getSystemCounterState();

    while ((current = current->n) != NULL) {
        sum += current->pad;
    }

    SystemCounterState after = getSystemCounterState();

    cout << "Instructions per clock: " << getIPC(before, after) << endl;
    cout << "Cycles per op: " << getCycles(before, after) / ARRAY_SIZE << endl;
    cout << "L2 Misses:     " << getL2CacheMisses(before, after) << endl;
    cout << "L2 Hits:       " << getL2CacheHits(before, after) << endl; 
    cout << "L2 hit ratio:  " << getL2CacheHitRatio(before, after) << endl;
    cout << "L3 Misses:     " << getL3CacheMisses(before_sstate,after_sstate) << endl;
    cout << "L3 Hits:       " << getL3CacheHits(before, after) << endl;
    cout << "L3 hit ratio:  " << getL3CacheHitRatio(before, after) << endl;

    cout << "Sum:   " << sum << endl;
    m->cleanup();
    return 0;
}

这是输出:

Instructions per clock: 0.408456
Cycles per op:        553074
L2 Cache Misses:      58775
L2 Cache Hits:        11371
L2 cache hit ratio:   0.162105
L3 Cache Misses:      24164
L3 Cache Hits:        34611
L3 cache hit ratio:   0.588873

编辑:我还检查了以下代码，仍然得到相同的未命中率(我希望得到几乎为零的未命中率):

SystemCounterState before = getSystemCounterState();
// this is just a comment
SystemCounterState after = getSystemCounterState();

编辑 2:正如有人评论的那样，这些结果可能是由于探查器本身的开销造成的。所以我不再只一次，而是多次更改代码遍历数组(200,000,000 次)，以分摊探查器的开销。我仍然得到非常低的 L2 和 L3 缓存比率 (%15)。

最佳答案

您的系统上的所有内核似乎都出现了 l2 和 l3 未命中

我在这里查看 PCM 实现:https://github.com/erikarn/intel-pcm/blob/ecc0cf608dfd9366f4d2d9fa48dc821af1c26f33/src/cpucounters.cpp

[1] 在第 1407 行的 PCM::program() 实现中，我没有看到任何将事件限制到特定进程的代码

[2] 在第 2809 行的 PCM::getSystemCounterState() 实现中，您可以看到事件是从系统上的所有内核收集的。所以我会尝试将进程的 cpu 亲和性设置为一个核心，然后只从这个核心读取事件 - 使用这个函数 CoreCounterState getCoreCounterState(uint32 core)

关于c++ - 没有意义的 CPU 测量(缓存未命中/命中)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30270741/

29

4

0

文章推荐： c++ - 将 .txt 值插入 vector

文章推荐： c++ - 无需编写太多运算符重载函数即可将字符串与数字进行比较

文章推荐： html - 如何覆盖表的默认CSS

APC 命中/未命中和配置
关于 APC 操作码缓存，什么是“命中与未命中”？我已经安装了 APC 并且它运行良好，但我有“一些”失误，我想知道这是否“不好”。此外，我正在运行 Openx，因此，我很快就会填满“缓存完整计数”。
python - 如何验证一个函数是否被 pytest 命中
我试过这个: def test_send_confirm_hit(monkeypatch): hit = False def called(): global hit
Javascript 正则表达式 - 插入单词(命中)
是否可以将找到的单词插入到替换中？ $(function() { content = 'hallo mein name ist peter und ich komme aus berlin.
php - 命中 'back' 时重置复选框值
我有一个允许用户将文件上传到文件夹的网站。首先，我检查文件是否存在，如果存在，然后检查复选框的值以确定用户是否要覆盖现有文件。如果点击上传并且未选中该框，我会执行一个带有消息和后退按钮的 die()
c++ - 命中 GDB 断点时自动调用应用程序代码中的函数
我有多个不同的进程通过 IPC 进行通信，当使用 gdb 调试单个进程时，每当遇到断点时，我都会尝试向其他进程发送消息。有没有一种方法可以自动在遇到断点时自动调用一个函数/一段代码(NotifyAll
jq - 解析多个 json 文件并输出针对具有关联文件名的正则表达式的匹配/命中
目前，通过管道传输到 jq 的 cat 命令帮助我解析工作目录中的多个 JSON 文件，并根据正则表达式模式匹配文件中所有可用的电子邮件 ID。但是，我很想识别正则表达式模式被命中/匹配的文件名 ca
service - 命中 HeadlessService 的端点 - Kubernetes
我们希望将 podname 解析为 IP，以在 akka 集群中配置种子节点。这是通过在 Kubernetes 中使用 headless (headless)服务和有状态集的概念来实现的。但是，如何在
java - 命中 'mvn test' 后运行哪些测试？
Maven 项目具有以下文件夹结构: src/main/java src/main/resources src/test/java src/test/resources 如果我们导航到 Maven 项
c - 二十一点程序的多个问题(发牌、错误、命中)
我只使用 c 几个星期，所以很可能会出现我忽略的明显错误。我看过其他线程，但我不明白我正在读的很多内容。该程序假设有一个无限大的牌组。已知问题: clearBuffer 当前未使用，我正在尝试不同的
Android AdMob -onReceivedAd 命中，但没有显示广告
我已将我的 AdMob 代码实现到我的 XML 文件中，如下所示: 在我的 Activity 的 onCreate 方法中: // load ads
c - 通过内存访问跟踪文件确定缓存读/写/命中/未命中
我的作业是通过示例程序确定给定跟踪文件的缓存读/写/未命中/命中次数。举例来说，这是示例跟踪输出的前 10 行。 0x37c852: W 0xbfd4b18c 0x37cfe0: W 0xbfd
javascript - 为什么这里的仪表板状态没有被 $state.go ('dashboard' ... 命中？
https://plnkr.co/edit/2h6fV5yTjeUqLP3SvbvO?p=preview 预期登录后应用程序重定向到 $state container，其中包含 dashboard
elasticsearch - 将聚合限制在 elasticsearch 中的前 X 命中
ElasticSearch 独立于 from 和 size 参数，基于查询的所有命中构建聚合结果。在大多数情况下，这是我们想要的，但我有一个特殊情况，我需要将聚合限制为前 N 个命中。 limits
c++ - 没有意义的 CPU 测量(缓存未命中/命中)
我使用 Intel PCM 进行细粒度的 CPU 测量。在我的代码中，我试图测量缓存效率。基本上，我首先将一个小数组放入 L1 缓存(通过多次遍历)，然后启动计时器，再遍历数组一次(希望使用缓存)，
javascript - 定义 Javascript slider 命中/滚动区域
我在为 javascript 滑动元素定义点击区域时遇到问题。参见示例: http://www.warface.co.uk/clients/warface.co.uk/ 请滑过右侧的灰色框以显示按钮
python - 获取 os.walk 命中 abspath
我正在尝试在 foldersystem 中使用 os.walk() 找到几个 'my_file.bat'，如果文件名匹配它应该用 subprocess.call() 或 .run() 调用。问题是 o
ios - 我应该如何处理 Siesta 中的部分 EntityCache 命中？
我有一个端点，我可以在其中请求我使用 Siesta 查询的多条数据(例如 https://example.com/things?ids=1,2,3) .如果我只缓存了一些 things ，我试图弄清楚
php - 命中 blockcypher api laravel 时出错
这是我的代码: public static function test(){ try{ $apiContext = ApiContext::create(
php - 命中 "enter"不会在 IE8 中发布表单
我使用 PHP 在需要时传递登录表单，代码如下: $htmlForm = ''.''; switch(LOGIN_METHOD) { case 'both': $htmlFor
nginx - 命中 url 时找不到 404 页面，但从索引页面上的链接打开时正确提供
我正在使用 nginx-lua带有 redis 的模块提供 ember-app 的静态文件. index文件内容存储在redis作为 value由 nginx 正确提供服务当(根)domain/IP被

首页

博学

6Ren·AI

商城

c++ - 没有意义的 CPU 测量(缓存未命中/命中)