c++ - CPU 缓存临界跨度测试根据访问类型给出意外结果-6ren

c++ - CPU 缓存临界跨度测试根据访问类型给出意外结果

转载作者：IT老高更新时间：2023-10-28 23:02:33

灵感来自 this recent question on SO and the answers given ，这让我觉得很无知，我决定花点时间了解一下 CPU 缓存 并编写了一个小程序来验证我是否正确地完成了这一切(很可能不是，恐怕)。我先写下假设这是我期望的基础，所以如果这些是错误的，你可能会阻止我。根据我所阅读的内容，一般来说:

安 n -way关联缓存分为s集合，每个包含 n行，每行具有固定大小 L ;

每个主存地址A可以映射到 n 中的任何一个 的缓存行一 放;

地址A的集合可以通过将地址空间拆分为一个缓存行大小的槽，然后计算索引A 来找到被映射。的槽( I = A / L )，最后进行模运算将索引映射到目标集 T ( T = I % s );

高速缓存读取未命中比高速缓存写入未命中导致更高的延迟，因为 CPU 在等待获取主内存线时不太可能停顿并保持空闲状态。

我的第一个问题是: 这些假设正确吗？

假设它们是，我尝试使用这些概念，以便我可以实际看到它们对程序产生具体影响。我写了一个简单的测试，分配了一个 B 的内存缓冲区。字节并使用 重复访问该缓冲区的位置固定增量 给定步骤 从缓冲区开始 (这意味着如果 B 是 14 并且步长是 3，我只会重复访问位置 0、3、6、9 和 12 - 如果 B 是 13、14 或 15，则同样如此):

int index = 0;
for (int i = 0; i < REPS; i++)
{
    index += STEP;
    if (index >= B) { index = 0; }
    buffer[index] = ...; // Do something here!
}

由于上述假设，我的期望是:

设置时STEP等于 临界步幅 (即缓存行的大小乘以缓存中的集合数，或 L * s )，性能应该是 明显更糟比当 STEP例如，设置为 ( L * s) + 1 ，因为我们将仅访问映射到同一集合的内存位置，从而迫使缓存线更频繁地从该集合中逐出并导致更高的缓存未命中率；

当STEP等于临界步幅，性能不应该受到影响按尺寸B缓冲区，只要它不是太小(否则会访问的位置太少，缓存未命中会更少)；否则，性能应该会受到影响 来自 B ，因为使用更大的缓冲区，我们更有可能访问映射到不同集合的位置(特别是如果 STEP 不是 2 的倍数)；

读取和写入 时的性能损失应该更糟每个缓冲区位置比只写时到这些位置:写入内存位置不应该需要等待获取相应的行，因此访问映射到同一组的内存位置的事实(再次，通过使用临界步幅作为 STEP )应该有一个轻微影响。

所以我用了 RightMark Memory Analyzer找出我的 L1 CPU 数据缓存的参数，在我的程序中调整大小，然后尝试一下。这就是我编写主循环的方式( onlyWriteToCache 是一个可以从命令行设置的标志):

    ...
    for (int i = 0; i < REPS; i++)
    {
        ...
        if (onlyWriteToCache)
        {
            buffer[index] = (char)(index % 255);
        }
        else
        {
            buffer[index] = (char)(buffer[index] % 255);
        }
    }

结果简而言之:

预期 1) 和 2) 得到确认；

预期 3) 是不是确认的。

这个事实让我震惊，让我觉得有些事情我没有做对。当 B是 256 MB 和 STEP等于临界步幅，测试(在 GCC 4.7.1 上使用 -O3 编译)表明:

周期的只写版本遭受平均 ~6x 性能损失(6.234s vs 1.078s)；

循环的读写版本遭受平均 ~1.3x 性能损失(6.671s 对 5.25s)。

所以我的第二个问题是: 为什么会有这种差异？ 我预计读取和写入时的性能损失会高于仅写入时的性能损失。

为了完整起见，下面是我为做测试而编写的程序，其中常量反射(reflect)了我机器的硬件参数:L1 8 路关联的大小 数据缓存 是 32 KB，大小为 L每个缓存行的大小为 64 字节，总共有 64 组(CPU 有一个单独的相同大小和相同行大小的 L1 8 路指令缓存)。

#include <iostream>
#include <ctime>
#include <cstdlib>
#include <iterator>
#include <algorithm>

using namespace std;

// Auxiliary functions

constexpr int pow(int base, int exp)
{
    return ((exp == 0) ? 1 : base * pow(base, exp - 1));
}

int main(int argc, char* argv[])
{
    //======================================================================
    // Define behavior from command-line arguments
    //======================================================================

    bool useCriticalStep = false;
    bool onlyWriteToCache = true;
    size_t BUFFER_SIZE = pow(2, 28);
    size_t REPS = pow(2, 27);

    if (argc > 0)
    {
        for (int i = 1; i < argc; i++)
        {
            string option = argv[i];
            if (option == "-c")
            {
                useCriticalStep = true;
            }
            else if (option == "-r")
            {
                onlyWriteToCache = false;
            }
            else if (option[1] == 's')
            {
                string encodedSizeInMB = option.substr(2);
                size_t sizeInMB = atoi(encodedSizeInMB.c_str());
                BUFFER_SIZE = sizeInMB * pow(2, 20);
            }
            else if (option[1] == 'f')
            {
                string encodedNumOfReps = option.substr(2);
                size_t millionsOfReps = atoi(encodedNumOfReps.c_str());
                REPS = millionsOfReps * pow(10, 6);
            }
        }
    }

    //======================================================================
    // Machine parameters
    //======================================================================

    constexpr int CACHE_SIZE = pow(2, 15);
    constexpr int CACHE_LINE_SIZE = 64;
    constexpr int CACHE_LINES_PER_SET = 8;
    constexpr int SET_SIZE = CACHE_LINE_SIZE * CACHE_LINES_PER_SET;
    constexpr int NUM_OF_SETS = CACHE_SIZE / SET_SIZE;

    //======================================================================
    // Print out the machine parameters
    //======================================================================

    cout << "CACHE SIZE: " << CACHE_SIZE / 1024 << " KB" << endl;
    cout << "CACHE LINE SIZE: " << CACHE_LINE_SIZE << " bytes" << endl;
    cout << "CACHE LINES PER SET: " << CACHE_LINES_PER_SET << endl;
    cout << "SET SIZE: " << SET_SIZE << " bytes" << endl;
    cout << "NUMBER OF SETS: " << NUM_OF_SETS << endl;

    fill_n(ostream_iterator<char>(cout), 30, '='); cout << endl;

    //======================================================================
    // Test parameters
    //======================================================================

    const int STEP = NUM_OF_SETS * CACHE_LINE_SIZE + (useCriticalStep ? 0 : 1);

    //======================================================================
    // Print out the machine parameters
    //======================================================================

    cout << "BUFFER SIZE: " << BUFFER_SIZE / pow(2, 20) << " MB" << endl;
    cout << "STEP SIZE: " << STEP << " bytes" << endl;
    cout << "NUMBER OF REPS: " << REPS << endl;

    fill_n(ostream_iterator<char>(cout), 30, '='); cout << endl;

    //======================================================================
    // Start the test
    //======================================================================

    char* buffer = new char[BUFFER_SIZE];

    clock_t t1 = clock();

    int index = 0;
    for (size_t i = 0; i < REPS; i++)
    {
        index += STEP;
        if (index >= BUFFER_SIZE)
        {
            index = 0;
        }

        if (onlyWriteToCache)
        {
            buffer[index] = (char)(index % 255);
        }
        else
        {
            buffer[index] = (char)(buffer[index] % 255);
        }
    }

    clock_t t2 = clock();

    //======================================================================
    // Print the execution time (in clock ticks) and cleanup resources
    //======================================================================

    float executionTime = (float)(t2 - t1) / CLOCKS_PER_SEC;
    cout << "EXECUTION TIME: " << executionTime << "s" << endl;

    delete[] buffer;
}

如果您设法通读了这个长问题，在此先感谢您。

最佳答案

关于您的期望数字 3，您是对的。正如您所料。请查收 "What every Programmer should know about memory"更多细节。这是一个很好的系列文章，解释了内存层次结构。

那么为什么很难确认数字 3:有两个主要原因。一个是内存分配，另一个是虚拟-物理地址转换。

内存分配

没有严格保证分配的内存区域的实际物理地址是什么。当你想测试 CPU 缓存时，我总是建议使用 posix_memalign强制分配到特定边界。否则你可能会看到一些奇怪的行为。

地址翻译

我提到的文章很好地解释了地址转换的工作方式。为了验证您的假设，您必须尝试确定预期的行为。最简单的方法如下:

实验

分配一组k int 形式的大内存区域(大约 512MB)数组并将它们全部对齐到 4096b 的页面边界。现在迭代内存区域中的所有元素并递增地添加 k 的更多区域。到你的实验。测量时间并通过读取的元素数量进行标准化。

代码可能如下所示:

#define N 10000000
for(size_t i=0; i < k; ++i) {

   size_t sum=0;
   clock_t t1= clock();
   for(size_t j=0; j < N; ++j) {
       for(size_t u=0; u<i; ++u) {
           sum += data[u][j];
       }
   }

   clock_t t2= clock();

}

那么会发生什么。所有大内存区域都对齐到 4k，并且基于之前的假设，同一行的所有元素都将映射到同一个缓存集。当循环中投影的内存区域数量大于缓存的关联性时，所有访问都将导致缓存未命中，并且每个元素的平均处理时间将增加。

更新

写入的处理方式取决于缓存线的使用方式和 CPU。现代 CPU 应用 MESI处理写入缓存行的协议(protocol)，以确保所有各方对内存(缓存一致性)有相同的看法。通常，在写入缓存行之前，必须先读取缓存行，然后再写回。是否识别回写取决于您访问数据的方式。如果您再次重新读取缓存行，您可能不会注意到差异。

然而，虽然程序员通常不会影响数据在 CPU 缓存中的存储方式，但与写入略有不同。可以执行所谓的流式写入，这些写入不会污染缓存，而是直接写入内存。这些写入也称为 non-temporal写道。

关于c++ - CPU 缓存临界跨度测试根据访问类型给出意外结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14543965/

文章推荐： node.js - 重击 : npm: command not found?

文章推荐：带有滚动条和 maxHeight 的 Android TextView

文章推荐： node.js - 是否可以让 Node.js 使用 Rhino 作为 Javascript 引擎？

cpu-usage - CPU 使用率和 CPU 使用率之间的区别？
我想知道在谈到 CPU 使用率和 CPU 利用率时，术语是否存在科学差异。我觉得这两个词都被用作同义词。它们都描述了 CPU 时间和 CPU 容量之间的关系。 Wikipedia称之为 CPU 使用率
cpu - CPU 指令重新排序的跟踪
我研究了一些关于处理器和 Tomasulo 算法的指令重新排序的内容。为了更深入地了解这个主题，我想知道是否有任何方法可以(获取跟踪)查看为给定程序完成的实际动态重新排序？我想给出一个输入程序并查
cpu-architecture - 本地 CPU 可能会降低远程 CPU 的数据包接收性能
我有一台配备 2 个 Intel Xeon CPU E5-2620 (Sandy Bridge) 和 10Gbps 82599 NIC(2 个端口)的服务器，用于高性能计算。从 PCI 关联性中，我看
cpu - 用户 CPU 时间 vs 系统 CPU 时间？
您能详细解释一下“用户 CPU 时间”和“系统 CPU 时间”吗？我读了很多，但我不太理解。最佳答案区别在于时间花在用户空间还是内核空间。用户 CPU 时间是处理器运行程序代码(或库中的代码)所花
cpu - 如何确定 CPU 是否与 ARM v5 cpu 指令兼容
我想知道如何识别 CPU 是否与 ARM v5 指令集兼容。假设 ARM v7 指令与 ARM v5 兼容是否正确？最佳答案您可以阅读 CPUID base register获得PARTNO。然
c - 如何在单个 CPU 的多个 cpu 内核上设置亲和性而不是在多个 CPU 上？
我目前在具有多个六核 CPU 的服务器上使用 C 多线程。我想将我的一些线程的亲和性设置为单个 CPU 的各个核心。我使用过 pthread_setaffinity_np() 和 sched_seta
android - 在traceview中Incl CPU Time，Excl CPU Time，Incl Real CPU Time，Excl Real CPU Time是什么意思？
1) 独占时间是在方法中花费的时间2) 包含时间是在方法中花费的时间加上在任何被调用函数中花费的时间3)我们称调用方法为“ parent ”，称方法为“子”。引用链接:Click here 这里的问题
c - 编写一段代码，该代码在新 cpu 上比在旧 cpu 上运行的 cpu 周期更多
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
cpu - 编译器完成的指令重新排序与 cpu 完成的指令重新排序之间有什么关系？
好的，所以编译器可以出于性能原因自由地重新排序代码片段。让我们假设一些代码片段，在没有应用优化的情况下直接翻译成机器代码，看起来像这样: machine_instruction_1 machine_i
cpu - "CPU jumps"是什么意思？
我在 zabbix 中有以下默认图表，但我不知道如何解释这些值。谁能解释一下？最佳答案操作系统是一件非常忙碌的事情，尤其是当你让它做某事时(即使你没有做)。当我们看到一个活跃的企业环境时，总会发生
cpu - 缓存是否具有 CPU 的字节序？
换句话说，L1、L2、L3 等缓存是否总是反射(reflect) CPU的字节序 ? 或者总是将数据存储在某些的缓存中更有意义吗？特定字节序 ? 有没有总体设计决策 ? 最佳答案大多数现代缓存不会
cpu - 现代 CPU 是否跳过乘法为零？
我想知道当前的 cpus 是否避免在其中至少一个为零时将两个数字相乘。谢谢最佳答案这取决于 CPU 和(在某些情况下)操作数的类型。较旧/较简单的 CPU 通常使用如下乘法算法: integer
cpu - CUDA 回退到 CPU？
我有一个 CUDA 应用程序，它在一台计算机(配备 GTX 275)上运行良好，而在另一台配备 GeForce 8400 的计算机上运行速度慢了大约 100 倍。我怀疑有某种回退使代码实际上在 CPU
cpu - 堆栈宽度是否始终与 CPU 寄存器大小相同？
例如，对于 8 位 CPU，堆栈大小预计为 8 位宽，16 位 CPU 与 16 位堆栈宽度，以及 32 位、64 位 CPU，等等。是否适用于所有架构？最佳答案 CPU 具有数据总线和地址总线。它
cpu - SIMD 是否需要多核 CPU？
实现 SIMD 是否需要多核 CPU？在阅读有关 SIMD 的维基百科时，我发现了以下短语“多处理元素”。那么这句话和“多核CPU”有什么区别呢？最佳答案不，每个内核通常都可以执行指令集中的大多
cpu - 了解 CPU 流水线阶段与指令吞吐量
我遗漏了一些基本的东西。 CPU 流水线:在基本层面上，为什么指令需要不同数量的时钟周期才能完成，为什么有些指令在多级 CPU 中只需要 1 个周期？除了明显的“不同的指令需要不同的工作量才能完成”
cpu - 超线程 CPU 是实现并行还是仅实现并发？
超线程 CPU 是实现并行还是仅实现并发(上下文切换)？我的猜测是没有并行性，只有通过上下文切换的并发性。最佳答案单个物理 CPU 具有超线程的核心显示为两个逻辑 CPU 到操作系统。 CPU
cpu - 理解 cpu 信息
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
cpu - 哪些 CPU 指令最耗电？
背景是这样的:下周我们的办公室将有一天因为维护而没有暖气。预计室外温度在 7 至 12 摄氏度之间，因此可能会变冷。可移植电取暖器数量太少，无法满足所有人的需求。但是，在我大约 6-8 平方米的办公
Docker cpu 共享并保证容器的最小分配 CPU
我开发了一个应用程序，该应用程序在我的开发箱上的三个容器中运行，该开发箱具有带超线程的四核，这意味着系统和 docker 使用 8 个核心。容器的 CPU 分配由 docker-compose 完成

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - CPU 缓存临界跨度测试根据访问类型给出意外结果