gpt4 book ai didi

language-agnostic - 基准测试:什么时候可以停止测量?

转载 作者:行者123 更新时间:2023-12-04 03:55:23 26 4
gpt4 key购买 nike

我有一系列旨在完成相同功能的功能。相同的输入产生相同的输出,但是执行这些输出所需的时间因功能而异。我想确定哪个是“最快”的,我想对自己的测量结果具有“统计学意义”有一定的信心。

细读Wikipedia和互连网告诉我,统计显着性意味着一个测量或一组测量与一个零假设相差一个p值阈值。这在这里如何适用?函数A比函数B更快的原假设是什么?

定义完整个设置后,如何确定何时停止测量?我通常会看到一个基准运行了3次,然后报告了平均值。为什么三遍而不是五七遍?根据this page on Statistical Significance(我自由地承认我并不完全理解),费舍尔使用8作为他要以98%的置信度来测量某物所需的样本数量。为什么是8?

最佳答案

您在问两个问题:

  • 您如何执行统计显着性检验,即功能A的平均时间大于功能B的平均时间?
  • 如果您想对自己的答案有一定的信心,应该取样几张?

  • 第一个问题的最常见答案是您要计算 confidence interval还是执行 t-test。这与任何其他具有随机变异的科学实验没有什么不同。要计算函数A的平均响应时间的95%置信区间,只需取平均值,然后将任一侧的标准误差加1.96倍即可。标准误差是方差的平方根除以N。即,
    95% CI = mean +/- 1.96 * sqrt(sigma2/N))

    其中sigma2是函数A的速度方差,而 N是用于计算均值和方差的运行次数。

    您的第二个问题与统计 power analysis和实验设计有关。您描述了一个顺序设置,询问您是否要继续采样。顺序实验的设计实际上是统计学中的一个非常棘手的问题,因为通常不允许您计算置信区间或p值,然后以未达到所需显着性为条件来抽取其他样本。如果您希望这样做,则设置贝叶斯模型并计算速度A大于速度B的后验概率将更为明智。

    在计算环境中,获得很小的置信区间通常非常简单,这既因为绘制大的N很容易,又因为方差通常很小-一个函数显然会获胜。

    考虑到Wikipedia和大多数在线资源在统计方面仍然令人恐惧,我建议购买 Introductory Statistics with R。您将学习统计数据和应用所学知识的工具。

    关于language-agnostic - 基准测试:什么时候可以停止测量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1390047/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com