- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如果我在我的 Mac 上使用 gfortran (Homebrew GCC 8.2.0)
编译下面没有优化的简单程序 (-O0
) 调用 matmul
始终在 ~90 毫秒内执行。如果我使用任何优化(标记 -O1
、-O2
或 -O3
),执行时间将增加到 ~250 毫秒。我已经尝试为 inVect
和 matrix
使用各种不同的大小,但在所有情况下,-O0
选项都优于其他三个优化标志至少 2.5 倍。如果我使用只有几百个元素的较小矩阵,但循环多次调用 matmul,性能损失会更糟,接近 10 倍。
有什么办法可以避免这种行为?我需要在我的代码的某些部分使用优化,但与此同时,我也想尽可能高效地执行矩阵乘法。
我使用命令 gfortran -ON sandbox.f90
编译包含以下代码的文件 sandbox.f90
,其中 N
是优化级别 0-3(不使用其他编译器标志)。打印 outVect
的第一个值只是为了防止 gfortran
优化变得聪明并完全跳过对 matmul
的调用。
我是 Fortran 新手,所以如果我在这里遗漏了一些明显的东西,我提前道歉。
program main
implicit none
real :: inVect(20000), matrix(20000,10000), outVect(10000)
real :: start, finish
call random_number(inVect)
call random_number(matrix)
call cpu_time(start)
outVect = matmul(inVect, matrix)
call cpu_time(finish)
print '("Time = ",f10.7," seconds. – First Value = ",f10.4)',finish-start,outVect(1)
end program main
最佳答案
首先,考虑到我可能是错的。我也是第一次看到这个问题,和你一样惊讶。
我刚刚研究了这个问题,我的理解如下。优化-O0
, O3
, Ofast
和... 是为大多数一般(常见)情况编写的。然而,在某些情况下(当 -O3
的效率低于 -O*<-O3
时)优化会带来缺陷。这是因为这些优化会隐式调用标志,从而缩短特定任务的执行时间。对于您的情况,-O3
除其他外,强加所有matmul()
函数将被内联。这样的事情通常是好的,但对于大数组或多次调用此函数不是必需的。不知何故,内联的成本matmul()
比内联函数获得的 yield 更重要(至少我是这样看的)。
为了避免这种行为,我建议使用标志 -O3 -finline-matmul-limit=0
取消了 matmul
的内联功能。使用标志 -O3 -finline-matmul-limit=0
导致执行时间不比为 -O0
获得的执行时间差.
您可以使用 -finline-matmul-limit=n
您将在其中内联 matmul
仅当涉及的数组小于 n
时才起作用.我用 n=0
为简单起见。
希望对您有所帮助。
关于optimization - 为什么打开 gfortran 编译器优化后 matmul 变慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66682180/
我开始学习 Oracle JavaSE 认证考试。 我创建了一个 IntelliJ Idea 项目来处理我的训练源代码。我想尽量减少 IntelliJ Idea 的帮助。 我只想使用:颜色语法、终端选
默认情况下,.DPR 和 .DPROJ 的文件扩展名描述是相同的,因此在资源管理器中打开具有相同基本名称的项目文件时,两个文件描述都会列为“Delphi 项目文件”,这提供了一个选择开发人员 - 要打
我目前正在从 android 网站了解 Navigation Drawer,我正在使用他们的示例 http://developer.android.com/training/implementing-
我需要帮助。 我在 A3:A500 列中有单词和数字 我需要改变他们的名字。 如果单元格包含单词“previ”,则如果单元格是数字,则将字母“p”放入新列中。如果它是一个词,那么不要放“p” ...就
我正在尝试编写一些 VBA,它允许按钮添加一个空行,保持相同的格式,就在 SUM 公式所在的行上方。 到目前为止,我实现了创建一个空行,但我不知道如何实现代码以让该新行继承相同的格式样式(包括边框和格
我在共享网络驱动器上有两个工作簿: 工作簿 A(表) 工作簿 B(数据透视表 - 连接到源工作簿 A) 我正在尝试,当打开 Workbook B 时,运行宏并执行以下操作: 取消保护工作簿 B 上的某
我正在开发一个需要在在线/离线模式下进行测试的应用程序,所以我想知道是否有任何方法可以打开/关闭 iPad 模拟器的互联网连接(不关闭我的 MAC 的互联网服务)。请帮忙 最佳答案 不,模拟器使用与您
我需要对目录的所有文件执行我的脚本(搜索)。以下是有效的方法。我只是问哪个最好。 (我需要格式的文件名:parsedchpt31_4.txt) 全局: my $parse_corpus; #(for
在我的代码中,我想有条件地执行一些操作: #ifdef DEBUG NSLog(@"I'm in debug mode"); #endif 我已配置“项目”->“编辑项目设置”->“构建”选项卡,以便
我编写了一个小程序来比较笔记本电脑的性能。为了使程序CPU更加密集,我用一些多线程代码(通过Parallel API实现)实现了Rabin-Karp模式匹配算法。 我注意到,当在关闭编译器优化标志的情
使用以下代码来关闭模态并打开第二个模态。总是遇到同样的问题可以关闭一个但不能打开第二个,或者如果我更改顺序我可以打开一个但不能关闭另一个。 (我想我已经尝试过101版本了)。如果有人能帮忙的话。
blue sky 默认情况下,当指针悬停时显示标题。 是否可以切换它,例如: $('#button').on('click', function(){ if (something) {turn
我正在编写一个简单的宏,它将打开、保存和关闭一个 Excel 文件(例如 myworkbook.xlsx),但我无法执行此操作。我的文件 myworkbook.xlsx 位于以下位置: C:\User
我正在加载两个 geoJson 层 - 出于测试目的,两个层都是相同的数据,但是是从两个不同的 json 文件中提取的。当我在图层 Controller 中打开和关闭图层时,图层的绘制顺序会发生变化。
我在我的设置 Activity 中发现,当用户单击 ToggleButton 时,它应该在整个应用程序中静音,但它不起作用。我在教程类中放入的 SoundPool onClick 按钮声音仍在 onC
我有一部双卡手机。如果我想打开飞行模式,两个 SIM 卡都会发生这种情况。 是否可以通过编程方式仅对一张SIM卡进行操作(用户可以选择两者之一)?我看到了here上的帖子,他们一直工作到 API 16
我目前正在开发一个带有一些 pipe() 和重定向的 C shell 程序。 我使用 dup2() stdout 和 stderr (1 & 2) 重定向。 当我用 int fd = open("te
Jquery: 有没有办法捕获浏览器打开“打开/另存为”对话框时触发的事件? Open/Save dialog example http://qpack.orcanos.com/helpcenter/
我知道你可以用 window.close 关闭 window.open 但还有其他方法吗?我有一个打开 facebook 连接的弹出窗口,我想在用户连接到 facebook 时关闭弹出窗口,然后刷新父
我搜索一个事件,如果不存在,则搜索一种方法来了解屏幕是否关闭(电源选项 - 控制面板 - 关闭显示设置)。 这些解决方案都不适合我。 所以要么我在某个地方错了,要么就是不合适。 How to get
我是一名优秀的程序员,十分优秀!