- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试从头开始为 Beta 分布编写卡方拟合优度检验,而不使用任何外部函数。下面的代码报告“1”适合,即使来自 scipy.stats 的 kstest 返回零。数据是正常分布的,所以我的函数也应该返回零。
import numpy as np
from scipy.stats import chi2
from scipy.stats import beta
from scipy.stats import kstest
from scipy.stats import norm
preds = norm.rvs(5,2,size=200)
preds.sort()
bin_size = 30
bins = np.linspace(0,10,bin_size)
counts = np.digitize(preds, bins)
mean = 5
var = 2
sum = 0
for i in range(len(bins)-1):
p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)
freq = len(counts[counts==i]) / float(len(counts))
sum = sum + ((freq - p)**2)/p
dof = len(counts)-2
pval = 1 - chi2.cdf(sum, dof)
print pval
在代码中,我创建了 bin,基于 bin 测量频率,使用 Beta 分布 CDF 计算预期频率,并将其相加得到 X^2 检验统计量。
kstest调用是
print kstest(preds, 'beta', [mean, var])
我在这里做错了什么?
谢谢,
最佳答案
我认为你对自己问题的回答不正确,你的代码中存在一系列问题。
首先,根据您的实现,使用 len(counts)-2
计算的自由度与 len(preds)-2
相同。所以改变它没有任何区别。
其次,要对参数拟合进行 Chi^2 检验,您需要构建多个 MECE 分箱,这意味着分箱之间没有重叠,并且它们共同跨越 X
的所有可能值>。但是,通过使用 bins = np.linspace(0,10,bin_size)
设置您的 bin,您强制最右边的 bin 停在 10
。而高斯分布跨越 -inf 到 inf。因此,您生成的随机数有可能超过 10
。
但与这个相比,这可能不是什么问题:每个 bin 的计数通常至少需要 5 个。但是,使用您的方法来计算落入箱子的数字(这里您设置为 30 个箱子)可能并且实际上几乎总是有低于 5 的数字,甚至是 0。任何箱子中的 0 计数都会导致后续 sum 中的无穷大
计算,无论拟合好坏,都可能会被拒绝。我认为这就是为什么在将自由度更改为 len(preds)-2
后得到 0,你恰好在 bin 计数中至少有一个 0。
另一个问题是Chi^2的计算。我认为您不使用频率,而是使用每个 bin 中的实际计数:
p = beta.cdf(bins[i+1], mean, var) - beta.cdf(bins[i], mean, var)
p = p*200
freq = len(counts[counts==i])
sum = sum + ((freq - p)**2)/p
所以p
和freq
都是每个类别中的计数数,而不是相对频率。但我对此并不完全确定。
最后,dof 的定义是 bin 数 - 适合的参数数(此处为 2)-1。因此,如果您有 10 个 bin,dof = 10 - 2 - 1 = 7
。在您的代码中,这是“200 - 2 = 198”。具有如此大自由度的 chi^2 分布非常扁平,这意味着您需要非常大的 chi^2 值才能拒绝拟合。这就是您使用代码获得 1 的原因。
关于python - 使用频率、区间、CDF、Python 的卡方检验,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4010233/
这是我第一次提问,对于任何格式问题或任何让我难以回答的问题,我深表歉意。请让我知道我需要添加什么才能回答问题。 我正在尝试比较 2 个不相等的组大小(一个 ~ 97,另一个 ~ 714)之间的差异。差
这个问题在这里已经有了答案: dplyr summarize across ttest (1 个回答) 关闭 5 个月前。 我有这样的数据框 X1 X2 X3 X4 X5 class 1 1
我正在尝试对数据框中的两个数据子集运行 wilcox.test()。它们的长度不相等(48 对 260)。我想看看活橡树和水橡树的 dbh(胸高直径)是否存在差异。 Pine_stand 并收到该错
我有一个带有两个级别的因子列和许多数字列的数据框。我想按因子列拆分数据帧并对列对进行 t 检验。 使用示例数据集 Puromycin 我希望结果看起来像这样: Variable Treated
我尝试对数据框的所有列(一次两列)进行 t 检验,并仅提取 p 值。这是我想出的: for (i in c(5:525) ) { t_test_p.value =sapply( Data[5:525]
我有一个有 11 列数据的 Pandas 。我想通过测试将每一列与其他每一列进行比较(见下文)。如何创建一个循环来自动比较所有列,而无需为每个列对组合手动编写代码? from scipy.stats
我有一些数据,如下所示: # Groups: date [4] date data 1 2021-01-31 2 20
这就是我的数据的样子: > dput(data) structure(list(Name = c("Mark", "Tere", "Marcus", "Heidi", "Georg", "Tieme"
我有一个有 11 列数据的 Pandas 。我想通过测试将每一列与其他每一列进行比较(见下文)。如何创建一个循环来自动比较所有列,而无需为每个列对组合手动编写代码? from scipy.stats
我有一些数据,如下所示: # Groups: date [4] date data 1 2021-01-31 2 20
所以我有一些股票价格数据,我想测试价格是否遵循对数正态分布。我的代码如下: import scipy.stats as stats print(stats.kstest(df['DJIA'], "lo
我想对我的固定效应回归系数进行简单的联合 Wald 检验,但我想将限制设置为非零值。更具体地说,我想测试:H0: ai=0 and b=1 for every i或者基本上,是否从固定效应模型 (ai
我正在尝试进行双样本 t 检验,以检查两个数据集之间的均值是否存在显着差异。 我有两个数据集,每个数据集有 5 个试验,每个试验有 3 个特征。每个 Trial 都有不同的唯一标签,但 3 个特征(X
考虑以下虚拟数据: x <- rnorm(15,mean = 3,sd = 1) y <- rnorm(15,mean = 3,sd = 1) xy <- c(x,y) factor <- c(rep
我是一名计算机科学专业的学生,我正在自学算法类(class)。 在类(class)中我看到了这个问题: Show an efficient randomized algorithm to fact
我想使用拟合我的数据的 f 检验来比较两个模型。对于每个模型,我都执行了蒙特卡洛模拟,为每个模型参数和均方根拟合误差提供了统计估计。我想在 R 中使用 f-test 来确定哪个模型更可取。 最佳答案
我很难让 ks.test 使用卡方分布式数据: > chi10 ks.test(chi10, dchisq, df=10) One-sample Kolmogorov-Smirnov tes
我试图在 R 中复制 SPSS 的线性判别分析输出,但我很难找到执行 m-box 测试的方法。 我唯一找到的是一些发布在论坛上的代码,用于手动实现该过程,但我想知道语言本身是否已经包含用于此目的的任何
我有以下数据框: structure(list(test1 = c(0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1), test2 = c(0, 0, 1, 1, 0,
标准 stats::kruskal.test 模块允许计算数据集上的 kruskal-wallis 测试: >>> data(diamonds) >>> kruskal.test(price~cara
我是一名优秀的程序员,十分优秀!