python - 来自重采样方法与 scipy.stats.chi2_contigency 的卡方检验 P 值-6ren

python - 来自重采样方法与 scipy.stats.chi2_contigency 的卡方检验 P 值

转载作者：行者123 更新时间：2023-12-03 20:48:04

24

4

本题引用“O'Relly Practical Statistics for Data Scientist 2nd Edition”第3章， session 卡方检验。
这本书提供了一个卡方测试用例的例子，它假设一个网站有三个不同的标题，有 1000 名访问者。结果显示了每个标题的点击次数。
观察到的数据如下:

Headline   A    B    C
Click      14   8    12
No-click   986  992  988

预期值计算如下:

Headline   A        B        C
Click      11.13    11.13    11.13
No-click   988.67   988.67   988.67

Pearson 残差定义为:

table 现在在哪里:

Headline   A        B        C
Click      0.792    -0.990   0.198
No-click   -0.085   0.106   -0.021

卡方统计量是 Pearson 残差平方的总和:

.这是 1.666
到现在为止还挺好。
现在是重采样部分:

1. Assuming a box of 34 ones and 2966 zeros
2. Shuffle, and take three samples of 1000 and count how many ones(Clicks)
3. Find the squared differences between the shuffled counts and expected counts then sum them.
4. Repeat steps 2 to 3, a few thousand times.
5. The P-value is how often does the resampled sum of squared deviations exceed the observed.

本书提供的重采样python测试代码如下:
(可从 https://github.com/gedeck/practical-statistics-for-data-scientists/tree/master/python/code 下载)

## Practical Statistics for Data Scientists (Python)
## Chapter 3. Statistial Experiments and Significance Testing
# > (c) 2019 Peter C. Bruce, Andrew Bruce, Peter Gedeck

# Import required Python packages.

from pathlib import Path
import random

import pandas as pd
import numpy as np

from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats import power

import matplotlib.pylab as plt

DATA = Path('.').resolve().parents[1] / 'data'

# Define paths to data sets. If you don't keep your data in the same directory as the code, adapt the path names.

CLICK_RATE_CSV = DATA / 'click_rates.csv'

...

## Chi-Square Test
### Chi-Square Test: A Resampling Approach

# Table 3-4
click_rate = pd.read_csv(CLICK_RATE_CSV)
clicks = click_rate.pivot(index='Click', columns='Headline', values='Rate')
print(clicks)

# Table 3-5
row_average = clicks.mean(axis=1)
pd.DataFrame({
    'Headline A': row_average,
    'Headline B': row_average,
    'Headline C': row_average,
})

# Resampling approach
box = [1] * 34
box.extend([0] * 2966)
random.shuffle(box)

def chi2(observed, expected):
    pearson_residuals = []
    for row, expect in zip(observed, expected):
        pearson_residuals.append([(observe - expect) ** 2 / expect
                                  for observe in row])
    # return sum of squares
    return np.sum(pearson_residuals)

expected_clicks = 34 / 3
expected_noclicks = 1000 - expected_clicks
expected = [34 / 3, 1000 - 34 / 3]
chi2observed = chi2(clicks.values, expected)

def perm_fun(box):
    sample_clicks = [sum(random.sample(box, 1000)),
                     sum(random.sample(box, 1000)),
                     sum(random.sample(box, 1000))]
    sample_noclicks = [1000 - n for n in sample_clicks]
    return chi2([sample_clicks, sample_noclicks], expected)

perm_chi2 = [perm_fun(box) for _ in range(2000)]

resampled_p_value = sum(perm_chi2 > chi2observed) / len(perm_chi2)

print(f'Observed chi2: {chi2observed:.4f}')
print(f'Resampled p-value: {resampled_p_value:.4f}')

chisq, pvalue, df, expected = stats.chi2_contingency(clicks)
print(f'Observed chi2: {chi2observed:.4f}')
print(f'p-value: {pvalue:.4f}')

现在，我运行 perm_fun(box) 2,000 次并获得了 0.4775 的重采样 P 值。
但是，如果我运行 perm_fun(box) 10,000 次和 100,000 次，我两次都能够获得 0.84 的重采样 P 值。在我看来，P 值应该在 0.84 左右。
为什么 stats.chi2_contigency 显示的数字如此之小？
我运行 2000 次的结果是:

Observed chi2: 1.6659
Resampled p-value: 0.8300
Observed chi2: 1.6659
p-value: 0.4348

如果我运行它 10,000 次，结果是:

Observed chi2: 1.6659
Resampled p-value: 0.8386
Observed chi2: 1.6659
p-value: 0.4348

软件版本:

pandas.__version__:         0.25.1
numpy.__version__:          1.16.5
scipy.__version__:          1.3.1
statsmodels.__version__:    0.10.1
sys.version_info:           3.7.4

最佳答案

我运行了您的代码，尝试了 2000、10000 和 100000 次循环，并且所有 3 次都接近 0.47。但是，我确实在这一行遇到了一个我必须修复的错误:

resampled_p_value = sum(perm_chi2 > chi2observed) / len(perm_chi2)

这里 perm_chi2是一个列表和 chi2observed是一个浮点数，所以我想知道这段代码是如何为您运行的(也许您为修复它所做的一切都是错误的根源)。无论如何，将其更改为预期的

resampled_p_value = sum([1*(x > chi2observed) for x in perm_chi2]) / len(perm_chi2)

允许我运行它并接近 0.47。
确保在更改迭代次数时，只更改 2000，而不更改其他任何数字。

关于python - 来自重采样方法与 scipy.stats.chi2_contigency 的卡方检验 P 值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64600459/

24

4

0

文章推荐： math - 曲线透视 : Convert 3D to 2D

文章推荐： iPhone键盘触摸事件

文章推荐： iphone - UIPickerView - 更改组件宽度

Scipy 和 CX_freeze - 导入 scipy : you cannot import scipy while being in scipy source directory 时出错
我在使用 cx_freeze 和 scipy 时无法编译 exe。特别是，我的脚本使用 from scipy.interpolate import griddata 构建过程似乎成功完成，但是当我尝试
scipy - SciPy 中由函数定义的稀疏矩阵
是否可以通过函数在 scipy 中定义一个稀疏矩阵，而不是列出所有可能的值？在文档中，我看到可以通过以下方式创建稀疏矩阵 There are seven available sparse matrix
scipy - SciPy:Minimumsq与Minimum_squares
SciPy为非线性最小二乘问题提供了两种功能： optimize.leastsq()仅使用Levenberg-Marquardt算法。 optimize.least_squares()允许我们选择Le
scipy - SciPy 中的复杂求解器
SciPy 中的求解器能否处理复数值(即 x=x'+i*x")？我对使用 Nelder-Mead 类型的最小化函数特别感兴趣。我通常是 Matlab 用户，我知道 Matlab 没有复杂的求解器。如果
scipy - 如何使用 scipy 计算三次样条插值的导数？
我有看起来像这样的数据集: position number_of_tag_at_this_position 3 4 8 6 13 25 23 12 我想对这个数据集应用三次样条插值来插值标签密度；为此
scipy - 如何使用 Scipy 处理巨大的稀疏矩阵构造？
所以，我正在处理维基百科转储，以计算大约 5,700,000 个页面的页面排名。这些文件经过预处理，因此不是 XML 格式。它们取自 http://haselgrove.id.au/wikipedi
scipy - 在 scipy 中获取非归一化特征向量
Scipy 和 Numpy 返回归一化的特征向量。我正在尝试将这些向量用于物理应用程序，我需要它们不被标准化。例如a = np.matrix('-3, 2; -1, 0') W,V = spl.ei
scipy - 有没有办法将 scipy.optimize.fsolve 与 jit_integrand_function 和 scipy.integrate.quad 一起使用？
基于此处提供的解释 1 ，我正在尝试使用相同的想法来加速以下积分: import scipy.integrate as si from scipy.optimize import root, fsol
scipy - 导入 scipy 或 scipy.signal 时 Pyinstaller --onefile 警告 pyconfig.h
这很容易重新创建。如果我的脚本 foo.py 是: import scipy 然后运行: python pyinstaller.py --onefile foo.py 当我启动 foo.exe 时，
python - 为什么 from scipy import spatial 有效，而 scipy.spatial 在 import scipy 后不起作用？
我想在我的代码中使用 scipy.spatial.distance.cosine。如果我执行类似 import scipy.spatial 或 from scipy import spatial 的操
scipy - 如何使用 scipy.integrate.quadpack(或 scipy 中的其他 c/fortran)直接作为来自 cython 的 c
Numpy 有一个基本的 pxd，声明它的 c 接口(interface)到 cython。是否有用于 scipy 组件(尤其是 scipy.integrate.quadpack)的 pxd？或者，
scipy - 理解 scipy.stats.chisquare
有人可以帮我处理 scipy.stats.chisquare 吗？我没有统计/数学背景，我正在使用来自 https://en.wikipedia.org/wiki/Chi-squared_test 的
scipy - 如何使用 scipy.odr 估计拟合优度？
我正在使用 scipy.odr 拟合数据与权重，但我不知道如何获得拟合优度或 R 平方的度量。有没有人对如何使用函数存储的输出获得此度量有建议？最佳答案 res_var Output 的属性是所谓的
scipy - pip 无法为 scipy 构建轮子
我刚刚下载了新的 python 3.8，我正在尝试使用以下方法安装 scipy 包: pip3.8 install scipy 但是构建失败并出现以下错误: **Failed to build sci
scipy - 如何使用带有自己的三角测量的 scipy.interpolate.LinearNDInterpolator
我有 my own triangulation algorithm它基于 Delaunay 条件和梯度创建三角剖分，使三角形与梯度对齐。这是一个示例输出: 以上描述与问题无关，但对于上下文是必要的。
scipy - scipy.stats.norm 上下文中的概率密度函数是什么？
这是一个非常基本的问题，但我似乎找不到好的答案。 scipy 到底计算什么内容 scipy.stats.norm(50,10).pdf(45) 据我了解，平均值为 50、标准差为 10 的高斯中像 4
scipy - 在 Scipy.signal 中拟合传递函数模型
我正在使用 curve_fit 来拟合一阶动态系统的阶跃响应，以估计增益和时间常数。我使用两种方法。第一种方法是在时域中拟合从函数生成的曲线。 # define the first order dyn
scipy - 使用 scipy.stats 计算条件期望
让我们假设 x ~ Poisson(2.5);我想计算类似 E(x | x > 2) 的东西。我认为这可以通过 .dist.expect 运算符来完成，即: D = stats.poisson(2.
scipy - 区分 OpenMDAO SciPy SLSQP 中的迭代和函数评估
我正在通过 OpenMDAO 使用 SLSQP 来解决优化问题。优化工作充分；最后的 SLSQP 输出如下: Optimization terminated successfully. (Exi
python - Scipy 最小化/Scipy 曲线拟合/lmfit
log( VA ) = gamma - (1/eta)log[alpha L ^(-eta) + 测试版 K ^(-eta)] 我试图用非线性最小二乘法估计上述函数。我为此使用了 3 个不同的包(Sc

首页

博学

6Ren·AI

商城

python - 来自重采样方法与 scipy.stats.chi2_contigency 的卡方检验 P 值