- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在学习如何使用 gprof 分析我的代码。对于我的一个应用程序,我有以下输出:
Each sample counts as 0.01 seconds.
% cumulative self self total
time seconds seconds calls ms/call ms/call name
10.27 1.20 1.20 Location::get_type() const (location.cpp:20 @ 40a4bd)
再往下看
1.20 4.98 0.14 34662692 0.00 0.00 Location::get_type() const (location.cpp:19 @ 40a4ac)
这是函数
char Location::get_type() const {
return type;
}
我假设 gprof 的第一行指的是函数需要执行的总时间,而第二行指的只是 return 语句所需的时间。我还有其他函数是返回 int
s 的同一个类的 getter,但是函数时间和返回语句时间之间的差异只有大约 0.1 秒,而我发布的时间差是 1.06 秒(其他 getter 被调用的次数大约少了 200 万次,与调用总数相比很小)。与函数调用中的一行代码相比,有什么可以解释函数调用的更多时间?
可能值得一提的是,我使用 -g -pg 进行编译,因为我在逐行模式下使用 gprof。
编辑:其中一个答案建议我查看程序集输出。我看不懂,所以我会在这里发布。我已经发布了两个函数调用的汇编代码。第一个是 get_floor(),它相对较快(~.10 秒)。第二个是 get_type(),它很慢。
_ZNK8Location9get_floorEv:
.LFB5:
.cfi_startproc
pushq %rbp
.cfi_def_cfa_offset 16
.cfi_offset 6, -16
movq %rsp, %rbp
.cfi_def_cfa_register 6
movq %rdi, -8(%rbp)
movq -8(%rbp), %rax
movl 8(%rax), %eax
popq %rbp
.cfi_def_cfa 7, 8
ret
.cfi_endproc
.LFE5:
.size _ZNK8Location9get_floorEv, .-_ZNK8Location9get_floorEv
.align 2
.globl _ZNK8Location8get_typeEv
.type _ZNK8Location8get_typeEv, @function
_ZNK8Location8get_typeEv:
.LFB6:
.cfi_startproc
pushq %rbp
.cfi_def_cfa_offset 16
.cfi_offset 6, -16
movq %rsp, %rbp
.cfi_def_cfa_register 6
movq %rdi, -8(%rbp)
movq -8(%rbp), %rax
movzbl 12(%rax), %eax
popq %rbp
.cfi_def_cfa 7, 8
ret
.cfi_endproc
最佳答案
基于代码检测的分析器对于这种非常快的函数几乎毫无用处,您可以从中得到的任何东西都只是随机数。
原因是现代 CPU 上的执行时间是一个非常复杂的函数,包含大量参数和检测(添加到函数中以更新统计信息的代码)会把一切搞砸。对于像这样的短函数,单独的检测可能比被检测的代码本身要多得多。
为了分析快速函数,你应该使用像 OProfile 这样的被动分析器。只需运行程序并以准定期的间隔检查它所在的位置。您得不到精确的计数器,但您可以从随机抽样中获得的近似值更接近真实情况,因为程序行为并未发生太大改变。
查看程序在哪里浪费时间的另一种方法是通过试验。如果您怀疑代码的某个部分是瓶颈,那么尝试执行它 10 次(这通常不难做到)并检查程序的总执行时间变化了多少。如果减速幅度不大,那么您就会知道,即使能够完全删除该代码也不会为您节省太多。
关于c++ - 为什么函数调用比根据 gprof 执行的代码花费的时间长得多?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12634197/
我一直在读一本分配给类(class)的书,它提到数组访问需要 O(1) 时间。我意识到这非常快(也许尽可能快),但是如果您有一个循环必须多次引用它,那么分配一个临时变量以在数组中查找值有什么好处吗?或
我一直试图找出为什么这个查询花了这么长时间。以前,它的执行时间约为 150 毫秒到 200 毫秒,但现在需要 25 秒或更长时间。这是从昨晚到今天之间的事。唯一改变的就是将数据添加到表中。 根据下面的
我有一个 ng repeat 重复数据。 - data.image(src)部分为null,src=null的不再重复。 我用一个简单的 ng-if 解决了它。
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率,大约需要 4 分钟。但是 pcov 不支持分支覆盖,所以我决定使用 xdebug。 使用 xdebug 测试执行,
我已经被这个问题困扰了一段时间了,我被难住了。 Automapper 需要 4 秒来映射 19 个对象。在我的机器(24GB 内存,3.6Ghz i7)上,该操作应该花费毫秒或纳秒。 这是映射调用。
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率,大约需要 4 分钟。但是 pcov 不支持分支覆盖,所以我决定使用 xdebug。 使用 xdebug 测试执行,
我在机器 A 上有一个 java 进程通过 TCP 与机器 B 上的 Tomcat 通信。 TCP 连接(只是 syn-syn/ack 交换)始终需要 100 毫秒的数量级,而 ping 请求需要 1
我做了一项任务,从 sqlserver 获取超过 200 万条记录并将它们填充到 Asp.net GridView 中。 问题是,查询需要超过 2 分钟才能获得记录,而我的查询现在已经完全优化。 当我
我希望将 165 秒变成 2:40 而不是 0:2:45 函数需要能够适应秒值的大小。 我知道有无数种方法可以做到这一点,但我正在寻找一种干净的方法来做到这一点,除了 jQuery 之外没有任何外部库
我是一名优秀的程序员,十分优秀!