- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个用 Fortran 语言做矩阵运算的示例程序,它有列主系统来存储矩阵。这是否会导致两个数组操作在运行时出现如此显着的差异?如果是这样,有人可以解释为什么会发生这种情况以及究竟是什么导致了如此大的运行时差异?
我正在使用 Ubuntu 14.04 和 GNU Fortran 4.8.4。
代码:
program main
implicit none
integer :: i,j
real :: start, finish
real,dimension(256,256) :: arr1
!ROW format - put 0 to main diagonal
call cpu_time(start)
do i=1,255,1
do j=1,255,1
arr1(i,j)=0
end do
end do
call cpu_time(finish)
write(*,100) 'Execution time arr(i,j) in seconds= ', (finish-start)
100 format (A,f12.9)
!COLUMN format - put 1 to main diagonal
call cpu_time(start)
do j=1,255,1
do i=1,255,1
arr1(i,j)=1
end do
end do
call cpu_time(finish)
write(*,100) 'Execution time arr(j,i) in seconds = ', (finish-start)
end program
编译:
gfortran main.f95 -o main
输出:
Execution time arr(i,j) in seconds= 0.000736000
Execution time arr(j,i) in seconds = 0.000164000
与第二种方法相比,第一种方法大约需要 4.5 倍的执行时间。
编辑:我更感兴趣的是知道为什么执行时间有如此大的差异(当我们进行行主要排序等时,编译器或处理器或内存级别发生了一些奇怪的事情)而不是简单地放置 -o3
标记或优化代码。这个问题optimization of a seven do cycle有一个答案说列主要排序更好。为什么这样?
最佳答案
首先,您的测试存在严重偏差:要查看偏差,请颠倒您正在测试的两个 block 的顺序,事情将开始发生变化。对于这样的测试,您必须:
您也可以根据自己的兴趣,选择将第二步替换为循环。
现在,回到您的问题,我首先要提到这个问题太宽泛了,就像 francescalus 提到的那样。简而言之;计算机内存被组织成一个层次结构:
任何级别都有其优点和缺点:
参见示例 this link了解更多信息。我忽略了作为另一层内存和网络的磁盘。
数据通常只从一层内存传输到下一层:即从 RAM 到缓存,从缓存到 RAM,从缓存到寄存器,从寄存器到缓存。 CPU 仅在访问速度更快的寄存器上运行。所以对于每一个操作,数据都是从RAM中取到寄存器中,在计算之后,它们又被带回RAM中。哦不,没那么快。让我们保持简单,假设 CPU 在字节上运行(如果你更深入,你将了解单词的概念是一组连续的字节和页面的概念是一组连续的单词)。
当你访问一个不在缓存中的字节时,就会出现缓存错误,该字节先从 RAM 进入缓存,然后再进入寄存器进行你的操作。当系统将该字节从 RAM 取到缓存时,它会将一组连续的字节放在一起。这样如果下一个操作是在最近的邻居上进行的,就不需要去 RAM。
现在在您的程序中发生的事情是,fortran 按列存储数组,这意味着在内存中元素按以下顺序存储:
a(1,1) a(2,1) a(3,1) ... a(M,1) a(1,2) a(2,2) a(3,2) ... a(M,2) ...
所以循环
do j=1,255,1
do i=1,255,1
arr1(i,j)=1
end do
end do
是按照元素存储在内存中的顺序访问元素。 RAM 和缓存之间的往返次数减少到最少。
对于另一个循环
do i=1,255,1
do j=1,255,1
arr1(i,j)=1
end do
end do
您根本没有以正确的顺序访问元素。例如,如果您的缓存只能容纳少于矩阵的一列,则意味着对于内部循环的任何迭代,系统都必须重新填充缓存。而不是那么简单,要重新填充缓存,如果缓存中的数据被修改,系统会先将缓存中的数据复制回RAM,这里就是这样。要看到这一点,将矩阵增加到您的 RAM 可以处理的最大大小,您将看到不遵循存储逻辑意味着什么,差距会增加。你可以逐渐增加,1000x1000,然后 10000x10000,等等。当你的缓存只能容纳一个或更少的列时,你将得到一个接近 RAM 和缓存访问时间之间的因子。记住,超过 10 个。
内存是许多计算机科学类(class)的主题。我只想给你我能很快给的东西。
关于loops - 为什么这些 Fortran 95 循环方法的执行时间不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31898307/
我认为这样的表达式会导致 Haskell 永远评估。但是 GHCi 和编译程序中的行为让我感到惊讶。 例如,在 GHCi 中,这些表达式一直阻塞到 I Control+C ,但不消耗 CPU。看起来像
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
如果可以的话,我想减少这段代码: class Alarm { internal static void isGreaterThanOrBelowValue(int min, int max,
我有以下问题: 我想创建一个批处理文件,循环访问一定数量的 IP 地址,以停止远程 PC 上的某个服务。 因为停止过程需要一些时间,所以我需要第二个循环来查询服务的状态并等待,直到服务达到“已停止”状
我已经完整地编写了“The Rust Programming Language”在线书籍中的程序,chapter 2 .我还进一步开发了它:通过添加一个简单的问题/响应,用户可以通过输入“y”再次玩游
这个人已经困扰了我一阵子了, 我们应该如何在集合中存储值或在for循环中映射? (let [s #{}] (for [ i (range 10) j (range 1
mov ecx, 16 looptop: . . . loop looptop 这个循环会执行多少次? 如果 ecx
我似乎无法找到一种在 Xtend 中表达以下内容而不诉诸 while 循环的好方法: for(int i = 0; i range(int stop) { range(0, stop) }
好吧,长话短说,我正在学习汇编,我正在尝试循环打印出 ascii 字符“0”-“9”。因此,我完成了我在示例中看到的所有基础知识,例如使用 pushad 和 popad 保存寄存器状态,分配堆栈空间,
我正在尝试为自己编写一个扑克计算器,我有一个 5 级深的 for 循环。 为此,我将 for 循环一个接一个地嵌套。我正在寻找一种方法来简单地使用一个循环(或函数),它可以告诉我想去多少层。对于这个例
我有一本包含约 150,000 个键的字典。没有重复的键。每个 key 的长度为 127 个字符,每个 key 在 1-11 个位置上有所不同(大多数差异发生在 key 的末尾)。每个键的值是一个唯一
我正在尝试编写一个 Lisp 程序来实现与点和方 block 非常相似的棋盘游戏,这意味着我有两个玩家相互竞争但可以连续移动。我正在尝试实现最简单的 minimax 算法来实现这一点,没有 alpha
下面是我实现的代码的简要说明。 for 循环的复杂度应该是 O(n)。我只是无法弄清楚内部 while 循环的时间复杂度。 int x,n; // Inputted by the user.
我目前正在尝试使用 html 分词器 https://godoc.org/golang.org/x/net/html . 所以我想做的是:从 url 获取所有链接,如果 url 包含特定字符串 ->
我有 32 个文件(以相同的模式命名,唯一的区别是下面写的 $sample 编号)我想分成 4 个文件夹。我正在尝试使用以下脚本来完成这项工作,但该脚本无法正常工作,有人可以帮我使用以下 shell
我必须根据 where 条件在我的内部表上做一个循环,但根据我的程序模式,必须在运行时修改 where 条件的字段。 我知道在 SELECT 语句中这是可能的,但是当我在循环中执行此操作时出现错误。
我正在学习关于kdb数据库的q。我担心q中没有循环。 我需要写一个算法,用像C这样的冗长程序在几个嵌套的for循环中编写。但是在q中,我被无法循环的事实所困扰。 仅举一个具体的例子(很多),我有一个简
我不明白为什么这段代码只循环一次然后退出? 在 Ghci 中,我只能回答第一个循环,然后似乎变量 cont 设置为 false 并且我没有提示回答。 结果是: *Main> testLoop1 td1
我正在 Racket 中运行 for 循环,对于列表中的每个对象,我想执行两件事:如果该项目满足条件,(1) 将其附加到我的新列表中,(2) 然后打印列表。但我不知道如何在 Racket 中执行此操作
我正在尝试使用 matlab 并行包中的 parfor 循环。我和这个人有类似的问题:MATLAB parfor slicing issue? 。输出矩阵似乎没有被识别为切片变量。在我的具体情况下,我
我是一名优秀的程序员,十分优秀!