gpt4 book ai didi

python - 使用频率、区间、CDF、Python 的卡方检验

转载 作者:太空宇宙 更新时间:2023-11-04 01:41:58 29 4
gpt4 key购买 nike

我正在尝试从头开始为 Beta 分布编写卡方拟合优度检验,而不使用任何外部函数。下面的代码报告“1”适合,即使来自 scipy.stats 的 kstest 返回零。数据是正常分布的,所以我的函数也应该返回零。

import numpy as np
from scipy.stats import chi2
from scipy.stats import beta
from scipy.stats import kstest
from scipy.stats import norm

preds = norm.rvs(5,2,size=200)
preds.sort()

bin_size = 30
bins = np.linspace(0,10,bin_size)
counts = np.digitize(preds, bins)
mean = 5
var = 2

sum = 0
for i in range(len(bins)-1):
p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)
freq = len(counts[counts==i]) / float(len(counts))
sum = sum + ((freq - p)**2)/p

dof = len(counts)-2
pval = 1 - chi2.cdf(sum, dof)
print pval

在代码中,我创建了 bin,基于 bin 测量频率,使用 Beta 分布 CDF 计算预期频率,并将其相加得到 X^2 检验统计量。

kstest调用是

print kstest(preds, 'beta', [mean, var])

我在这里做错了什么?

谢谢,

最佳答案

我认为你对自己问题的回答不正确,你的代码中存在一系列问题。

首先,根据您的实现,使用 len(counts)-2 计算的自由度与 len(preds)-2 相同。所以改变它没有任何区别。

其次,要对参数拟合进行 Chi^2 检验,您需要构建多个 MECE 分箱,这意味着分箱之间没有重叠,并且它们共同跨越 X 的所有可能值>。但是,通过使用 bins = np.linspace(0,10,bin_size) 设置您的 bin,您强制最右边的 bin 停在 10。而高斯分布跨越 -inf 到 inf。因此,您生成的随机数有可能超过 10

但与这个相比,这可能不是什么问题:每个 bin 的计数通常至少需要 5 个。但是,使用您的方法来计算落入箱子的数字(这里您设置为 30 个箱子)可能并且实际上几乎总是有低于 5 的数字,甚至是 0。任何箱子中的 0 计数都会导致后续 sum 中的无穷大 计算,无论拟合好坏,都可能会被拒绝。我认为这就是为什么在将自由度更改为 len(preds)-2 后得到 0,你恰好在 bin 计数中至少有一个 0。

另一个问题是Chi^2的计算。我认为您不使用频率,而是使用每个 bin 中的实际计数:

p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)  
p = p*200
freq = len(counts[counts==i])
sum = sum + ((freq - p)**2)/p

所以pfreq都是每个类别中的计数数,而不是相对频率。但我对此并不完全确定。

最后,dof 的定义是 bin 数 - 适合的参数数(此处为 2)-1。因此,如果您有 10 个 bin,dof = 10 - 2 - 1 = 7。在您的代码中,这是“200 - 2 = 198”。具有如此大自由度的 chi^2 分布非常扁平,这意味着您需要非常大的 chi^2 值才能拒绝拟合。这就是您使用代码获得 1 的原因。

关于python - 使用频率、区间、CDF、Python 的卡方检验,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4010233/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com