language-agnostic - 基准测试:什么时候可以停止测量？-6ren

language-agnostic - 基准测试:什么时候可以停止测量？

转载作者：行者123 更新时间：2023-12-04 03:55:23

27

4

我有一系列旨在完成相同功能的功能。相同的输入产生相同的输出，但是执行这些输出所需的时间因功能而异。我想确定哪个是“最快”的，我想对自己的测量结果具有“统计学意义”有一定的信心。

细读Wikipedia和互连网告诉我，统计显着性意味着一个测量或一组测量与一个零假设相差一个p值阈值。这在这里如何适用？函数A比函数B更快的原假设是什么？

定义完整个设置后，如何确定何时停止测量？我通常会看到一个基准运行了3次，然后报告了平均值。为什么三遍而不是五七遍？根据this page on Statistical Significance(我自由地承认我并不完全理解)，费舍尔使用8作为他要以98％的置信度来测量某物所需的样本数量。为什么是8？

最佳答案

您在问两个问题:

您如何执行统计显着性检验，即功能A的平均时间大于功能B的平均时间？

如果您想对自己的答案有一定的信心，应该取样几张？

第一个问题的最常见答案是您要计算 confidence interval还是执行 t-test。这与任何其他具有随机变异的科学实验没有什么不同。要计算函数A的平均响应时间的95％置信区间，只需取平均值，然后将任一侧的标准误差加1.96倍即可。标准误差是方差的平方根除以N。即，

95% CI = mean +/- 1.96 * sqrt(sigma2/N))

其中sigma2是函数A的速度方差，而 N是用于计算均值和方差的运行次数。

您的第二个问题与统计 power analysis和实验设计有关。您描述了一个顺序设置，询问您是否要继续采样。顺序实验的设计实际上是统计学中的一个非常棘手的问题，因为通常不允许您计算置信区间或p值，然后以未达到所需显着性为条件来抽取其他样本。如果您希望这样做，则设置贝叶斯模型并计算速度A大于速度B的后验概率将更为明智。

在计算环境中，获得很小的置信区间通常非常简单，这既因为绘制大的N很容易，又因为方差通常很小-一个函数显然会获胜。

考虑到Wikipedia和大多数在线资源在统计方面仍然令人恐惧，我建议购买 Introductory Statistics with R。您将学习统计数据和应用所学知识的工具。

关于language-agnostic - 基准测试:什么时候可以停止测量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1390047/

27

4

0

文章推荐： user-interface - 在网络上运行 Qt 信号/插槽的任何想法？

文章推荐： scp - 非互动式SCP

文章推荐： react-native - 安全地设置用户无法操作 react-native 的日期

文章推荐： apache-kafka - Kafka 使用了哪些内部主题？

MySQL 基准测试
我正在阅读一些基准测试技巧，并在此站点上发现了一条提示“重新启动 MySQL 服务器以消除任何不需要的缓存因素”:http://blog.monitor.us/2012/09/the-gold-sta
Java 基准测试
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
c - 基准测试-CPU时间大于墙时间？
我在linux上测量cpu时间和排序算法的时间。我使用getrusage来测量cpu时间，并使用clock_gettime CLOCK_MONOTONIC来获取墙时间。尽管我注意到cpu时间大于墙上时
benchmarking - OpenCL 基准测试
我可以阅读很多关于 OpenCL 的文章，它似乎是最有前途的(唯一的？)多架构库。 OpenCL应该是第一个并行架构编程标准，它最终会被大部分程序员采用。这很好，但是从 native 编程库迁移到 O
lua - Lua 基准测试
我想在不使用外部依赖项的情况下对一些 Lua 进行基准测试。我目前正在使用 os.clock: local function dummy() end local start = os.clock()
Java 基准测试 - 为什么第二个循环更快？
我对此很好奇。我想检查哪个函数更快，所以我编写了一些代码并执行了很多次。 public static void main(String[] args) { long ts;
MySQL 基准测试，预生产
有没有办法在项目的开发阶段对 SQL 查询进行基准测试？有问题的表中只有几个示例行，但我想在行数达到数千、数百万、数十亿、数万亿、数亿等等之前对一些查询进行基准测试用数千行样本数据填充表格是唯一的
C++ 基准测试， volatile
我正在尝试测量使用 rdtsc 执行函数“check()”所需的时间，如下所示: a = rdtsc(); check(pw); b = rdtsc(); return (b-a); 但是，我收到的时
Hadoop 基准测试/性能测试
我想在我的 Hadoop 集群上执行基准测试和性能测试。我知道 hadoop-mapreduce*test*.jar 和 hadoop-mapreduce-examples*.jar 有很多用于基准测
hadoop 基准测试 - terasort
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
递归爬楼梯拼图的 Java 基准测试
这个现在非常常见的算法问题是在白板考试期间由监考人员提出的。我的工作是观察、倾听和客观判断给出的答案，但我无法控制这个问题，也无法与回答者互动。给了五分钟的时间分析问题，考生可以写项目符号，伪代码(
ios - JSONKit 基准测试
我把代码从 http://www.bonto.ch/blog/2011/12/08/json-libraries-for-ios-comparison-updated/并在我的本地机器上进行了测试。
php - MySQL 基准测试
我正在尝试使用 MySQL 基准测试来测试一些查询。但是，我遇到了一个错误。 SELECT benchmark (10000, (select title from user)); 作为返回，我得到了
Java 基准测试 - 为什么第二个循环更快？
我很好奇这个。我想检查哪个函数更快，所以我创建了一些代码并执行了很多次。 public static void main(String[] args) { long ts;
Memcached 的 UDP 基准测试
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
haskell - 对不同大小的输入运行 Haskell 基准测试
我经常想比较同一函数的多个实现的运行时性能。对于个人输入，标准是一个很好的工具。但是有什么简单的方法可以在不同的输入大小上绘制代码的性能，例如看算法复杂度？理想情况下，我向库传递一个类型为 Ben
language-agnostic - 基准测试:什么时候可以停止测量？
我有一系列旨在完成相同功能的功能。相同的输入产生相同的输出，但是执行这些输出所需的时间因功能而异。我想确定哪个是“最快”的，我想对自己的测量结果具有“统计学意义”有一定的信心。细读Wikipedia
assembly - 编写跨步 x86 基准测试
我想编写一个加载基准测试，它以编译时已知的步幅跨过给定的内存区域，并在该区域的末尾(2 的幂)使用尽可能少的非加载指令进行包装有可能。例如，给定步长 4099，rdi 中的迭代计数以及 rsi 中指
rabbitmq - 基准测试 Rabbitmq 工具
我有多个组件与 RabbitMQ 相连。有些是生产者和消费者。我需要对我的系统进行基准测试/负载测试。我需要确保消费者每秒可以处理 N 条消息。我在互联网上做了一些搜索，但还没有真正找到任何东西。有没
Eclipse 与 Netbeans 基准测试
是否有任何基准或研究来比较这两个 IDE --稳定性-- 开发人员生产力 - 特征 - 表现-- 等等最佳答案我是 Eclipse 用户(不是自愿的)。不确定稳定性，但性能方面 NetBeans

首页

博学

6Ren·AI

商城

language-agnostic - 基准测试:什么时候可以停止测量？