java - 如果 profiler 不是答案，我们还有什么其他选择？-6ren

java - 如果 profiler 不是答案，我们还有什么其他选择？

转载作者：IT老高更新时间：2023-10-28 20:47:01

25

4

看了Joshua Bloch 的“Performance Anxiety”演讲后，我阅读了他在演讲中建议的论文"Evaluating the Accuracy of Java Proﬁlers" .引用结论:

Our results are disturbing because they indicate that proﬁler incorrectness is pervasive—occurring in most of our seven benchmarks and in two production JVM—-and signiﬁcant—all four of the state-of-the-art proﬁlers produce incorrect proﬁles. Incorrect proﬁles can easily cause a performance analyst to spend time optimizing cold methods that will have minimal effect on performance. We show that a proof-of-concept proﬁler that does not use yield points for sampling does not suffer from the above problems

论文的结论是，我们不能真正相信分析器的结果。但是，使用分析器的替代方法是什么。我们是不是应该回去只凭感觉做优化？

更新:讨论中似乎遗漏的一点是观察者效应。我们能否构建一个真正无“观察者效应”的分析器？

最佳答案

哦，伙计，从哪里开始？

首先，我很惊讶这是新闻。其次，问题不在于分析器不好，而在于一些分析器不好。作者构建了一个他们认为很好的模型，只是避免了他们在评估的错误中发现的一些错误。错误很常见，因为一些持久的myths about performance profiling .

但让我们保持积极的态度。如果想找到加速的机会，其实很简单:

采样应该与程序的状态不相关。
这意味着发生在真正随机的时间，无论程序是在 I/O(用户输入除外)还是在 GC 中，还是在紧密的 CPU 循环中，或者其他什么。
采样应该读取函数调用栈,
以确定哪些语句在采样时是“活跃的”。原因是每个调用站点(调用函数的点)的百分比成本等于它在堆栈上的时间分数。(注意:本文完全关注自时间，忽略了大型软件中可避免的函数调用的巨大影响。事实上，最初的 gprof 背后的原因是为了帮助找到这些调用。)
报告应按行显示百分比(而不是按功能)。
如果识别出一个“热”函数，仍然需要在其中寻找占时间的“热”代码行。该信息在样本中!为什么要隐藏它？

一个几乎普遍的错误(该论文共享)是过于关注测量的准确性，而对位置的准确性却不够关注。例如，这里是 example of performance tuning其中发现并修复了一系列性能问题，实现了 43 倍的复合加速。在解决每个问题之前，不一定要准确知道每个问题的大小，但要知道它的位置。性能调优的一个现象是修复一个问题，通过减少时间，放大了剩余问题的百分比，因此更容易找到。只要发现并解决了任何问题，就会朝着发现并解决所有问题的目标前进。不必按尺寸递减的顺序修复它们，但必须确定它们。

关于测量的统计准确度，如果调用点在堆栈上的时间百分比为 F(如 20%)，并且取了 N(如 100)个随机时间样本，则显示调用点是二项分布，均值 = NF = 20，标准差 = sqrt(NF(1-F)) = sqrt(16) = 4。所以显示它的样本百分比将为 20% +/- 4%。那准确吗？不是真的，但是问题找到了吗？没错。

事实上，就百分比而言，问题越大，定位它所需的样本就越少。例如，如果采集了 3 个样本，其中 2 个样本出现了调用点，则很可能成本非常高。(具体来说，它遵循 beta 分布。如果您生成 4 个统一的 0,1 随机数，并对它们进行排序，则第 3 个的分布就是该调用点的成本分布。它的平均值是 (2+1)/(3+2) = 0.6，所以这是给定这些样本的预期节省。)插入:您获得的加速因子由另一个分布控制，BetaPrime ，它的平均值是 4。因此，如果您抽取 3 个样本，在其中 2 个样本上发现问题，然后消除该问题，平均而言，您将使程序快四倍。

现在是时候让我们的程序员在剖析问题上大惊小怪了。

免责声明 - 论文未能引用我的文章:Dunlavey，“Performance tune with instruction-level cost derived from call-stack sampling”，ACM SIGPLAN Notices 42, 8(2007 年 8 月)，第 4-8 页。

关于java - 如果 profiler 不是答案，我们还有什么其他选择？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4387895/

25

4

0

文章推荐： python - 将 multiprocessing.Queue 转储到列表中

文章推荐： java - 使用匿名接口(interface)的任意定义方法

文章推荐： java - 为什么 -Xmx 和 Runtime.maxMemory 不一致

文章推荐： python - 获取所有加起来为一个数字的数字

JavaScript 答案
(function() { main(); function main() { jQuery(document).ready(function($) {
Java重复(？)答案
所以我必须为我们的类(class)软件设计制作一个 GUI，我们正在为 children 制作一个游戏来练习乘法表。到目前为止，当您执行一次测试或练习时它工作正常，但是当您进行第二次运行时，它会出错。
Python:参数中的随机琐事琐事问题/答案
我刚开始学习 python，想做一些琐事。基本上，我想从列表中随机询问一个问题，然后使用“输入”运算符来判断用户输入的 Y/N 是否正确。我坚持确定如何检查它是否正确。也许我的(不正确的)代码可以更好
自定义 DNS 答案
我目前正在做一个暑期实习项目，我必须制作一个不经意的 DNS 翻译服务器。我不会在这里详细讨论被忽视的部分，但我会解释我的程序的架构。有一个服务器端接收混淆的请求并发回一个它自己无法理解的答案。在
ajax - 如何从谷歌翻译中获取和解析 json 答案
我想用ajax请求翻译单词到谷歌翻译如果我使用 curl，它会像: curl_init("http://translate.google.com/translate_a/t?client=t&tex
dns - 挖掘查询中“答案”部分五个字段的含义
这是我运行dig www.google.com时的答案部分: ;; ANSWER SECTION: www.google.com. 108 IN A 74
elasticsearch - 如何在elasticsearch查询中不获取 “_shards”答案
我在ES上有以下简单数据: curl -XPUT localhost:9200/dt/art/1 -d '{ "age": 77 }' curl -XPUT localhost:9200/dt/art
javascript - 多维数组给出 "wrong"答案
我从编码开始，我有一个多维数组的示例。但它没有给出预期的答案。我只得到“C”，我期待“JohnnyCash:Live at Folsom Prison”。出了什么问题？ var music = []
android - 多口味应用程序中未显示 crashlytics 答案
我们有一个应用程序与 Crashlytic 和 Answers 配合得很好。我们需要为这个应用程序做一个不同的风格。因此，我们的 Gradle 编译工作正常，并为两个不同的品牌制作了两个不同的 APK
javascript - 按照输入的顺序获取 sql 答案
我正在尝试从数据库获取歌曲列表。我在查询行中发送一个 ID 数组(永久链接)，并且我希望返回值的顺序与我在数组中给出的顺序相同。有没有办法做到这一点？ function getByPermalink
javascript - 将自定义代码添加到 jquery 答案
我有一个表单可以输入这样的值 test 有没有办法用jquery改变输入类型我基本上想把这个添加到输入类型中 data-slider="true" data-sl
javascript - 公式返回的值略低于 "correct"答案？
好吧，我距离数学高手还很远。哎呀，我记住了足够多的高中代数，可以拼凑出任何有效的公式，这对我来说是一个胜利。因此，如果您注意到这里有一个不必要的长或令人困惑的公式，那就可以解释了。但是，正如人们可以
java - 有没有一种有效的方法来舍入内部具有双值的字符串并得到 double 答案？
所以我的问题有点令人困惑，但仍然如此。我从外部源获取一个由 8 个字符串组成的数组，其中所有字符串都包含 double 值。这些值通常为小数点后 4 位: 12345.5678 我想做的是将其转换为小
Python:如何在随机多项选择中跟踪 "correct"答案
我成功地构建了一个函数来提示用户提出问题，然后是随机排列的答案选项。但是，由于答案选择现在是随机的，python 如何识别用户输入(数字:1、2、3 或 4)以获得“正确”答案？ import ran
java - 使用蛮力的其他数字乘积 InterviewCake 答案
我正在尝试使用蛮力来回答这个问题，这样我就可以理解发生了什么: https://www.interviewcake.com/question/java/product-of-other-numbers
macos - OSX 链接错误的 Fabric 答案
尝试使用刚刚宣布的 Answers OSX平台框架: pod 'Fabric' pod 'Answers' pod 'Crashlytics' #import #import #import [
ASP.NET 成员资格提供程序 - 验证散列安全问题/答案
在我添加的页面上检索忘记的用户名步骤 1) 输入电子邮件地址(通过电子邮件获取帐户) 第 2 步)验证安全问题(他们提供答案，我对其进行验证) 第 3 步)向他们发送带有用户名的电子邮件第 2 步
terminal - 如何在终端内获取 Stack Overflow 答案？
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
kotlin - Mockk:如何模拟保存对象时生成的对象ID(答案+变量)
在我的测试中，我需要模拟一种情况，当使用实体管理器(em)将新对象保存到数据库中时，在此过程中，该对象的id属性设置为数据库中该行的自动递增ID。我想将该id属性设置为我自己的值，以便稍后在测试中进行
java - 使用方法来寻求 y/n 答案
我有这个代码。调用askToContinue() 方法来询问用户是否要继续，但我的问题是它只是忽略选择并重新启动程序，无论我输入什么。我在代码中遗漏了什么导致它忽略我的选择？ public class

首页

博学

6Ren·AI

商城

java - 如果 profiler 不是答案，我们还有什么其他选择？