gpt4 book ai didi

c - 从内存中读取 "zero"是否比读取其他值更快?

转载 作者:IT王子 更新时间:2023-10-28 23:35:52 26 4
gpt4 key购买 nike

我正在运行一个内存访问实验,其中使用了一个 2D 矩阵,每一行都是一个内存页的大小。该实验包括使用行/列专业读取每个元素,然后还使用行/列专业写入每个元素。被访问的矩阵是在全局范围内声明的,以简化编程要求。

这个问题的重点是,在静态声明测试矩阵的情况下,编译器将值初始化为零,我发现的结果非常有趣。当我首先读取操作时,即

rowMajor_read();
colMajor_read();
rowMajor_write();
colMajor_write();

然后我的 colMajor_read 操作很快就完成了。 enter image description here

但是,如果我在阅读之前进行写入操作,我们有:

rowMajor_write();
colMajor_write();
rowMajor_read();
colMajor_read();

enter image description here

并且以列为主的读取操作增加了近一个数量级。

我认为这一定与编译器如何优化代码有关。由于每个元素的全局矩阵都为零,编译器是否完全删除了读取操作?还是以某种方式“更容易”从内存中读取一个相同为零的值?

我没有传递任何关于优化的特殊编译器命令,但我确实以这种方式声明了我的函数。

inline void colMajor_read(){
register int row, col;
register volatile char temp __attribute__((unused));
for(col = 0; col < COL_COUNT; col++)
for(row = 0; row < ROW_COUNT; row++)
temp = testArray[row][col];
}

因为我遇到了编译器从上述函数中完全删除 temp 变量的问题,因为它从未被使用过。我认为同时拥有 volatile__attribute__((unused)) 是多余的,但我还是将其包括在内。我的印象是没有对 volatile 变量进行任何优化。

有什么想法吗?


我查看了生成的程序集,结果与 colMajor_read 函数相同。 (汇编)非内联版本:http://pastebin.com/C8062fYB

最佳答案

在将值写入矩阵之前和之后检查进程的内存使用情况。例如,如果它存储在 Linux 上的 .bss 部分,则归零页面将映射到具有写时复制语义的单个只读页面。因此,即使您正在读取一堆地址,您也可能会一遍又一遍地读取同一页物理内存。

本页http://madalanarayana.wordpress.com/2014/01/22/bss-segment/有很好的解释。

如果是这种情况,然后再次将矩阵归零并重新运行您的读取测试,它应该不再那么快了。

关于c - 从内存中读取 "zero"是否比读取其他值更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26680199/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com