- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在C中,我将循环执行总数减少了近3倍,但通过测试执行时间,我发现这样做几乎没有任何改进。所有优化级别都经过测试,结果基本一致(包括O0、O1、O2和O3)。我猜是编译器的问题,但我想知道是什么导致了这种情况。以及如何做才能使结果符合预期。
代码如下:
#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#define Len 10000000
// Two variables that count the number of loops
int count1 = 0;
int count2 = 0;
int main(int argc, const char * argv[]) {
srandom((unsigned)time(NULL));
// An array to increase the index,
// the range of its elements is 1-256
int rand_arr[128];
for (int i = 0; i < 128; ++i)
rand_arr[i] = random()%256+1;
// A random text, the range of its elements is 0-127
char *tex = malloc((sizeof *tex) * Len);
for (int i = 0; i < Len; ++i)
tex[i] = random()%128;
// The first testing
clock_t start = clock();
for (int i = 0; i < Len; i += rand_arr[tex[i]])
count1++;
printf("No.1: %lf s\n", ((double)(clock() - start)) / CLOCKS_PER_SEC);
// The second testing (x3)
start = clock();
for (int i = 0; i < Len; i += rand_arr[tex[i]]+256)
count2++;
printf("No.2: %lf s\n", ((double)(clock() - start)) / CLOCKS_PER_SEC);
printf("count1: %d\n", count1);
printf("count2: %d\n", count2);
return 0;
}
打印结果(平均值)如下:
No.1: 0.002213 s
No.2: 0.002209 s
count1: 72661
count2: 25417
最佳答案
问题来自处理器本身而不是编译器。这是一个 复杂问题与 的行为有关CPU 缓存 , CPU预取单元和 随机访问模式 .
两个代码都读取了 tex
基于数组 i
值 无法轻易预测 由于 rand_arr
中存储的随机增量,处理器提前.因为 tex
相对较大,它可能不会完全存储在 L1 缓存中(也不在中间 L2 缓存中,如果有的话),而是在最后一级缓存 (LLC) 中,甚至在 RAM 中。结果,tex
需要在每个循环中从 LLC 缓存或 RAM 重新加载。 延迟 现在,LLC 缓存和 RAM 的容量都比较大。这个东西就是第二个循环更难预测且对缓存不友好 比第一个虽然迭代次数少了!
在 x86 CPU 上,按称为 的 64 字节块缓存包值缓存行 .当从主内存或另一个缓存中获取一个值时(通常是由于缓存未命中),会获取一个完整的缓存行。以下对同一缓存线的访问速度更快,因为 CPU 不需要再次获取它(只要缓存线没有失效)。
在第一个循环中,平均增量i
是 128(因为 rand_arr
的平均值是 128)。这意味着从 tex
中获取的两个项目之间的平均步幅是 128。在最坏的情况下,步幅为 256。在第二个循环中,平均步幅为 256+128=384,在最坏的情况下为 256+256=512。当步幅小于 64 时,很可能在第一种情况下已经提取,而在第二次循环中则永远不会出现这种情况。此外,预取单元当多个访问连续或彼此关闭时,可以预取缓存行。这使处理器能够处理 tex
的大多数项目。在第一个循环中提前数组。同时,在第二个循环中,预取器可能无法识别任何高速缓存行获取访问。预取单元可能不会预取任何东西(因为这样做太昂贵了),结果是许多具有高延迟的高速缓存未命中而无法减轻,因为访问本质上是顺序且不可预测的。如果预取单元决定预取所有缓存行,那么第二个循环不应比第一个循环快(因为两个循环都受内存层次结构的约束)。
请注意 random
和 srandom
不是标准功能。
另外,请注意 clock
在所有平台上并不总是精确的。实际上,它在我的 Windows 上的精度为 1 毫秒(使用 GCC 和 MinGW)。这也可以在某些 Linux 系统上看到。
关于c - 执行次数减少3倍,但执行效率几乎不变。在 C,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69211522/
我正在用 C 写一个高级计算器。正如你所猜到的,它目前有很多函数,我使用一个开关来对每个函数名进行适当的操作。它是这样的: switch(hash_of(function_name_currently
在大约四天的时间里,我一直在收集托管应用程序的性能计数器。在此期间,发生了以下垃圾回收: 第 0 代:133,695 第一代:133,413 第 2 代:133,254 其中一些是使用GC.Colle
我构建了这个: [ Workshop_templates 表 ] id_template | Workshop_name 1 | Conflict resolution 2 | Building tr
我有一个 N 的列表元素,我想抽样 M ( N/2 . IE。当超过一半的值被采样时。但它非常适合 M N/2 时反转问题。 : 注意:这实际上是创建一个大小为 N 的屏蔽列表对于 M 是 Fals
伙计们,我是竞争性编程的新手,我遇到了一个小问题在提供输入的同时在问题中,顶点数从 1 到 n但是我编写程序时考虑到节点是从 0 开始的 但是当我通过从每个边的每个顶点减少 1 来输入测试用例时,我的
在一次旅行中,有多个停靠点,(一个停靠点 = 一个或多个订单加载或交付的地址),按特定顺序排列。 例如: Trip A Trip_order Action Place Ord
我有一个关于由微服务组成的应用程序架构的问题。 我的微服务很少,但在这个问题的上下文中有趣的是: 人力资源 - 这里存储了所有用户数据,如用户名、性别、用户体验等。 工作机会 - 这里存储了每个招聘广
假设我的工作空间(全局环境)中有许多对象,并且我想将大多数对象存储在列表中。这是一个简化的示例: # Put some objects in the workspace A <- 1 B <- 2 C
当我获得与本地时间相同的时间戳时,firebase 生成的服务器时间戳是否会自动转换为本地时间,或者我错过了什么? _firestore.collection("9213903123").docume
我需要帮助才能将未知整数分成给定数量的偶数部分——或者至少尽可能地均匀。各部分之和应为原值,但各部分应为整数,且应尽可能接近。 参数 num: Integer - 应该被分成相等部分的数字 parts
我的 Java 程序中有一个带有 JPanel 的 ScrollPane,它附加了大量文本。我需要 ScrollPane 在每次添加后滚动到最底部。我对以下代码的问题是它“几乎”滚动到底部但不是一直滚
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组,你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
我有以下一组几乎相同的 each 语句。我需要添加大约 20 个遵循类似模式的内容。我正在尝试找出如何获取小变量并将它们更新为单个语句(而不是 20 次相同但略有不同的内容)。 $.each(main
所以我想获取两个字典中(几乎)匹配的键的值并将它们连接起来。我尝试过: dict3 = {key:dict1[key].strip() for key in dict2.keys() if key.p
我的表看起来像这样: | id (int) | sentence (varchar) | 我想找到除了一个特定单词之外几乎相同的所有行。例如: | 230 | test | | 321 | test
起始情况:MS SQL 中有一个现有的数据库模式,它与 MySQL 中的现有模式完全相同(数据库优先 - 无法更改,因为已广泛安装)。但是,它们在用于相应列的数据类型方面可能略有不同。该数据库系统必须
对于复杂的元素,一个很好的做法是(几乎)总是在闭包中定义 Polymer 以保持所有只应在内部修改的变量和方法私有(private),而不是将它们附加到元素(例如 'this ')? 喜欢以下内容:
我正在解析 Java 中的 RestAssured 调用,该调用返回对象列表。如果我使用此代码,Idea 会生成未经检查的分配警告: List availableInventories = ListP
我真的被难住了。我所拥有的是一个样式化为矩形的 div,其中包含作为页面主要标题的文本。相关代码如下: HTML: SIN CSS: h1 { text-align:right
我需要将单选按钮及其旁边的文本包装在标签中,只是为了更加用户友好。 几天前我遇到了类似的问题,我有一个复选框,并且在我有一个 span 元素之后立即出现。我可以包装这两个元素。 我有这个 HTML:
我是一名优秀的程序员,十分优秀!