gpt4 book ai didi

math - 计算平均置信区间而不存储所有数据点

转载 作者:行者123 更新时间:2023-12-04 15:16:54 24 4
gpt4 key购买 nike

对于大的 n(有关如何确定足够大的信息,请参见下文),根据中心极限定理,将样本均值的分布视为正态分布(高斯分布)是安全的,但我想要一个给出置信区间的程序任何 n 。这样做的方法是使用自由度为 n-1 的学生 T 分布。

所以问题是,给定您一次收集或遇到一个数据点的流,您如何计算数据点平均值的 c(例如, c=.95 )置信区间(不存储所有以前遇到的数据) )?

另一种提问方式是:如何在不存储整个流的情况下跟踪数据流的第一时刻和第二时刻?

额外问题:您能否在不存储整个流的情况下跟踪更高的时刻?

最佳答案

这是一篇关于 how to compute the mean and standard deviation in a single pass 的文章,不存储任何数据。一旦你有了这两个统计数据,你就可以估计一个置信区间。 95% 的置信区间为 [mean - 1.96*stdev, mean + 1.96*stdev] ,假设您的数据和大量数据点呈正态分布。
对于较少数量的数据点,您的置信区间将为 [mean - c(n)*stdev, mean + c(n)*stdev]哪里c(n)取决于您的样本量和您的置信度。对于 95% 的置信水平,这里是您的值 c(n)n = 2, 3, 4, ..., 30

12.70620, 4.302653, 3.182446, 2.776445, 2.570582, 2.446912, 2.364624, 2.306004, 2.262157, 2.228139, 2.200985, 2.178813, 2.160369, 2.144787, 2.131450, 2.119905, 2.109816, 2.100922, 2.093024, 2.085963, 2.079614, 2.073873, 2.068658, 2.063899, 2.059539, 2.055529, 2.051831, 2.048407, 2.045230


这些号码是 g(0.025, n-1)哪里 g是具有 n 个自由度的 t 分布的逆 CDF。如果您想要 99% 的置信区间,请将 0.025 替换为 0.005。一般来说,对于 1-alpha 的置信水平, 使用 alpha/2 .
这是 R生成上述常量的命令。
n = seq(2, 30); qt(0.025, n-1)
这是一个 blog post解释为什么上面的数字不像你想象的那么接近 1.96。

关于math - 计算平均置信区间而不存储所有数据点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/282600/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com