c - 执行次数减少3倍，但执行效率几乎不变。在 C-6ren

c - 执行次数减少3倍，但执行效率几乎不变。在 C

转载作者：行者123 更新时间：2023-12-04 11:43:25

25

4

在C中，我将循环执行总数减少了近3倍，但通过测试执行时间，我发现这样做几乎没有任何改进。所有优化级别都经过测试，结果基本一致(包括O0、O1、O2和O3)。我猜是编译器的问题，但我想知道是什么导致了这种情况。以及如何做才能使结果符合预期。
代码如下:

#include <stdio.h>
#include <time.h>
#include <stdlib.h>

#define Len 10000000

// Two variables that count the number of loops
int count1 = 0;
int count2 = 0;

int main(int argc, const char * argv[]) {
    srandom((unsigned)time(NULL));
    
    // An array to increase the index,
    // the range of its elements is 1-256
    int rand_arr[128];
    for (int i = 0; i < 128; ++i)
        rand_arr[i] = random()%256+1;
    
    // A random text, the range of its elements is 0-127
    char *tex = malloc((sizeof *tex) * Len);
    for (int i = 0; i < Len; ++i)
        tex[i] = random()%128;
    
    // The first testing
    clock_t start = clock();
    for (int i = 0; i < Len; i += rand_arr[tex[i]])
        count1++;
    printf("No.1: %lf s\n", ((double)(clock() - start)) / CLOCKS_PER_SEC);
    
    // The second testing (x3)
    start = clock();
    for (int i = 0; i < Len; i += rand_arr[tex[i]]+256)
        count2++;
    printf("No.2: %lf s\n", ((double)(clock() - start)) / CLOCKS_PER_SEC);
    
    printf("count1: %d\n", count1);
    printf("count2: %d\n", count2);
    
    return 0;
}

打印结果(平均值)如下:

No.1: 0.002213 s
No.2: 0.002209 s
count1: 72661
count2: 25417

最佳答案

问题来自处理器本身而不是编译器。这是一个 复杂问题与 的行为有关CPU 缓存 , CPU预取单元和 随机访问模式 .
两个代码都读取了 tex基于数组 i值 无法轻易预测 由于 rand_arr 中存储的随机增量，处理器提前.因为 tex相对较大，它可能不会完全存储在 L1 缓存中(也不在中间 L2 缓存中，如果有的话)，而是在最后一级缓存 (LLC) 中，甚至在 RAM 中。结果，tex需要在每个循环中从 LLC 缓存或 RAM 重新加载。延迟现在，LLC 缓存和 RAM 的容量都比较大。这个东西就是第二个循环更难预测且对缓存不友好 比第一个虽然迭代次数少了!
在 x86 CPU 上，按称为 的 64 字节块缓存包值缓存行 .当从主内存或另一个缓存中获取一个值时(通常是由于缓存未命中)，会获取一个完整的缓存行。以下对同一缓存线的访问速度更快，因为 CPU 不需要再次获取它(只要缓存线没有失效)。
在第一个循环中，平均增量i是 128(因为 rand_arr 的平均值是 128)。这意味着从 tex 中获取的两个项目之间的平均步幅是 128。在最坏的情况下，步幅为 256。在第二个循环中，平均步幅为 256+128=384，在最坏的情况下为 256+256=512。当步幅小于 64 时，很可能在第一种情况下已经提取，而在第二次循环中则永远不会出现这种情况。此外，预取单元当多个访问连续或彼此关闭时，可以预取缓存行。这使处理器能够处理 tex 的大多数项目。在第一个循环中提前数组。同时，在第二个循环中，预取器可能无法识别任何高速缓存行获取访问。预取单元可能不会预取任何东西(因为这样做太昂贵了)，结果是许多具有高延迟的高速缓存未命中而无法减轻，因为访问本质上是顺序且不可预测的。如果预取单元决定预取所有缓存行，那么第二个循环不应比第一个循环快(因为两个循环都受内存层次结构的约束)。
请注意 random和 srandom不是标准功能。
另外，请注意 clock在所有平台上并不总是精确的。实际上，它在我的 Windows 上的精度为 1 毫秒(使用 GCC 和 MinGW)。这也可以在某些 Linux 系统上看到。

关于c - 执行次数减少3倍，但执行效率几乎不变。在 C，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69211522/

25

4

0

文章推荐： java - @Transactional 上的 MySQL 套接字超时行为

文章推荐： c++ - 为什么不能将范围解析与成员指针取消引用一起使用？

文章推荐： C#:迁移到 NET 5 后在 dotnet 构建期间内存不足

c - (几乎)用于开关的非冲突简单哈希函数
我正在用 C 写一个高级计算器。正如你所猜到的，它目前有很多函数，我使用一个开关来对每个函数名进行适当的操作。它是这样的: switch(hash_of(function_name_currently
c# - (几乎)所有垃圾收集都是完全收集
在大约四天的时间里，我一直在收集托管应用程序的性能计数器。在此期间，发生了以下垃圾回收: 第 0 代:133,695 第一代:133,413 第 2 代:133,254 其中一些是使用GC.Colle
Mysql - 跨表排除有效..几乎
我构建了这个: [ Workshop_templates 表 ] id_template | Workshop_name 1 | Conflict resolution 2 | Building tr
python - (几乎)从列表中均匀选择项目
我有一个 N 的列表元素，我想抽样 M ( N/2 . IE。当超过一半的值被采样时。但它非常适合 M N/2 时反转问题。 : 注意:这实际上是创建一个大小为 N 的屏蔽列表对于 M 是 Fals
c - 显示相同输入的不同输出(几乎)
伙计们，我是竞争性编程的新手，我遇到了一个小问题在提供输入的同时在问题中，顶点数从 1 到 n但是我编写程序时考虑到节点是从 0 开始的但是当我通过从每个边的每个顶点减少 1 来输入测试用例时，我的
sql - 如何以特定顺序选择(几乎)唯一值
在一次旅行中，有多个停靠点，(一个停靠点 = 一个或多个订单加载或交付的地址)，按特定顺序排列。例如: Trip A Trip_order Action Place Ord
architecture - 出于项目推荐目的在微服务之间共享(几乎)相同的数据是否是个坏主意
我有一个关于由微服务组成的应用程序架构的问题。我的微服务很少，但在这个问题的上下文中有趣的是: 人力资源 - 这里存储了所有用户数据，如用户名、性别、用户体验等。工作机会 - 这里存储了每个招聘广
r - 存储(几乎)列表中工作区中的所有对象
假设我的工作空间(全局环境)中有许多对象，并且我想将大多数对象存储在列表中。这是一个简化的示例: # Put some objects in the workspace A <- 1 B <- 2 C
Firebase 服务器时间戳与本地(几乎)相同
当我获得与本地时间相同的时间戳时，firebase 生成的服务器时间戳是否会自动转换为本地时间，或者我错过了什么？ _firestore.collection("9213903123").docume
javascript - 如何将未知整数划分为给定数量的(几乎)偶数
我需要帮助才能将未知整数分成给定数量的偶数部分——或者至少尽可能地均匀。各部分之和应为原值，但各部分应为整数，且应尽可能接近。参数 num: Integer - 应该被分成相等部分的数字 parts
Java JScrollPane 滚动到底部......几乎
我的 Java 程序中有一个带有 JPanel 的 ScrollPane，它附加了大量文本。我需要 ScrollPane 在每次添加后滚动到最底部。我对以下代码的问题是它“几乎”滚动到底部但不是一直滚
python - 如何测试两个稀疏数组是否(几乎)相等？
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组，你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
javascript - 合并多个(几乎)重复的每个语句
我有以下一组几乎相同的 each 语句。我需要添加大约 20 个遵循类似模式的内容。我正在尝试找出如何获取小变量并将它们更新为单个语句(而不是 20 次相同但略有不同的内容)。 $.each(main
python - 获取两个字典中(几乎)匹配的键的值并将它们连接起来
所以我想获取两个字典中(几乎)匹配的键的值并将它们连接起来。我尝试过: dict3 = {key:dict1[key].strip() for key in dict2.keys() if key.p
mysql - 选择(几乎)重复的行
我的表看起来像这样: | id (int) | sentence (varchar) | 我想找到除了一个特定单词之外几乎相同的所有行。例如: | 230 | test | | 321 | test
c# - 如何正确封装对具有(几乎)相同模式的不同数据库系统的访问？
起始情况:MS SQL 中有一个现有的数据库模式，它与 MySQL 中的现有模式完全相同(数据库优先 - 无法更改，因为已广泛安装)。但是，它们在用于相应列的数据类型方面可能略有不同。该数据库系统必须
javascript - (几乎)总是在闭包中定义 Polymer？
对于复杂的元素，一个很好的做法是(几乎)总是在闭包中定义 Polymer 以保持所有只应在内部修改的变量和方法私有(private)，而不是将它们附加到元素(例如 'this ')? 喜欢以下内容:
java - (几乎)相同的代码在一个地方产生未经检查的分配，而在另一个地方则不会
我正在解析 Java 中的 RestAssured 调用，该调用返回对象列表。如果我使用此代码，Idea 会生成未经检查的分配警告: List availableInventories = ListP
css - 文本在(几乎)相同操作系统的相同浏览器中的位置不同
我真的被难住了。我所拥有的是一个样式化为矩形的 div，其中包含作为页面主要标题的文本。相关代码如下: HTML: SIN CSS: h1 { text-align:right
javascript - 选择(几乎)元素旁边的文本
我需要将单选按钮及其旁边的文本包装在标签中，只是为了更加用户友好。几天前我遇到了类似的问题，我有一个复选框，并且在我有一个 span 元素之后立即出现。我可以包装这两个元素。我有这个 HTML:

首页

博学

6Ren·AI

商城

c - 执行次数减少3倍，但执行效率几乎不变。在 C