math - 计算平均置信区间而不存储所有数据点-6ren

math - 计算平均置信区间而不存储所有数据点

转载作者：行者123 更新时间：2023-12-04 15:16:54

对于大的 n(有关如何确定足够大的信息，请参见下文)，根据中心极限定理，将样本均值的分布视为正态分布(高斯分布)是安全的，但我想要一个给出置信区间的程序任何 n 。这样做的方法是使用自由度为 n-1 的学生 T 分布。

所以问题是，给定您一次收集或遇到一个数据点的流，您如何计算数据点平均值的 c(例如， c=.95 )置信区间(不存储所有以前遇到的数据) )？

另一种提问方式是:如何在不存储整个流的情况下跟踪数据流的第一时刻和第二时刻？

额外问题:您能否在不存储整个流的情况下跟踪更高的时刻？

最佳答案

这是一篇关于 how to compute the mean and standard deviation in a single pass 的文章，不存储任何数据。一旦你有了这两个统计数据，你就可以估计一个置信区间。 95% 的置信区间为 [mean - 1.96*stdev, mean + 1.96*stdev] ，假设您的数据和大量数据点呈正态分布。
对于较少数量的数据点，您的置信区间将为 [mean - c(n)*stdev, mean + c(n)*stdev]哪里c(n)取决于您的样本量和您的置信度。对于 95% 的置信水平，这里是您的值 c(n)为 n = 2, 3, 4, ..., 30

12.70620, 4.302653, 3.182446, 2.776445, 2.570582, 2.446912, 2.364624, 2.306004, 2.262157, 2.228139, 2.200985, 2.178813, 2.160369, 2.144787, 2.131450, 2.119905, 2.109816, 2.100922, 2.093024, 2.085963, 2.079614, 2.073873, 2.068658, 2.063899, 2.059539, 2.055529, 2.051831, 2.048407, 2.045230

这些号码是 g(0.025, n-1)哪里 g是具有 n 个自由度的 t 分布的逆 CDF。如果您想要 99% 的置信区间，请将 0.025 替换为 0.005。一般来说，对于 1-alpha 的置信水平, 使用 alpha/2 .
这是 R生成上述常量的命令。