- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
对于大的 n
(有关如何确定足够大的信息,请参见下文),根据中心极限定理,将样本均值的分布视为正态分布(高斯分布)是安全的,但我想要一个给出置信区间的程序任何 n
。这样做的方法是使用自由度为 n-1
的学生 T 分布。
所以问题是,给定您一次收集或遇到一个数据点的流,您如何计算数据点平均值的 c
(例如, c=.95
)置信区间(不存储所有以前遇到的数据) )?
另一种提问方式是:如何在不存储整个流的情况下跟踪数据流的第一时刻和第二时刻?
额外问题:您能否在不存储整个流的情况下跟踪更高的时刻?
最佳答案
这是一篇关于 how to compute the mean and standard deviation in a single pass 的文章,不存储任何数据。一旦你有了这两个统计数据,你就可以估计一个置信区间。 95% 的置信区间为 [mean - 1.96*stdev, mean + 1.96*stdev]
,假设您的数据和大量数据点呈正态分布。
对于较少数量的数据点,您的置信区间将为 [mean - c(n)*stdev, mean + c(n)*stdev]
哪里c(n)
取决于您的样本量和您的置信度。对于 95% 的置信水平,这里是您的值 c(n)
为 n
= 2, 3, 4, ..., 30
12.70620, 4.302653, 3.182446, 2.776445, 2.570582, 2.446912, 2.364624, 2.306004, 2.262157, 2.228139, 2.200985, 2.178813, 2.160369, 2.144787, 2.131450, 2.119905, 2.109816, 2.100922, 2.093024, 2.085963, 2.079614, 2.073873, 2.068658, 2.063899, 2.059539, 2.055529, 2.051831, 2.048407, 2.045230
g(0.025, n-1)
哪里
g
是具有 n 个自由度的 t 分布的逆 CDF。如果您想要 99% 的置信区间,请将 0.025 替换为 0.005。一般来说,对于
1-alpha
的置信水平, 使用
alpha/2
.
n = seq(2, 30); qt(0.025, n-1)
这是一个
blog post解释为什么上面的数字不像你想象的那么接近 1.96。
关于math - 计算平均置信区间而不存储所有数据点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/282600/
我是一名优秀的程序员,十分优秀!