gpt4 book ai didi

python - Scikit-learn χ²(卡方)统计量和相应的列联表

转载 作者:太空狗 更新时间:2023-10-29 18:04:42 26 4
gpt4 key购买 nike

在 scikit-learn 的卡方单变量特征选择函数的文档中 http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html , 它指出

This score can be used to select the n_features features with the highest values for the χ² (chi-square) statistic from X, which must contain booleans or frequencies (e.g., term counts in document classification), relative to the classes.

我很难理解相应的列联表是什么样的,尤其是在频率特征的情况下。

例如,考虑以下具有 bool 特征和目标的数据集:

import numpy as np

>>> X = np.random.randint(2, size=50).reshape(10, 5)
array([[1, 0, 0, 0, 1],
[1, 1, 0, 1, 1],
[1, 0, 0, 0, 0],
[0, 0, 0, 0, 0],
[0, 0, 0, 0, 1],
[1, 0, 0, 0, 1],
[1, 0, 1, 1, 1],
[0, 1, 1, 0, 0],
[1, 0, 1, 1, 1],
[1, 1, 1, 1, 0]])

>>> y = np.random.randint(2, size=10)
array([1, 0, 0, 0, 1, 1, 1, 1, 0, 1])

要构建关于第一个特征的列联表,我们可以这样做(请原谅我违反了 PEP8)

import scipy as sp

>>> contingency_table = sp.sparse.coo_matrix(
... (np.ones_like(y), (X[:, 0], y)),
... shape=(np.unique(X[:, 0]).shape[0], np.unique(y).shape[0])).A
array([[1, 2],
[3, 4]])

现在我可以计算卡方统计量及其 p 值

>>> sp.stats.chi2_contingency(contingency_table)
(0.17857142857142855,
0.67260381744151676,
1,
array([[ 1.2, 1.8],
[ 2.8, 4.2]]))

这应该与 scikit-learn 的 chi2

一致
from sklearn.feature_selection import chi2

>>> chi2_, pval = chi2(X, y)
>>> chi2_[0], pval[0]
(0.023809523809523787, 0.87737055606414338)

...不。我误解了什么吗?

此外,列联表在频率的情况下是什么样子的?我以为会是这样的

contingency_table = sp.sparse.coo_matrix(
(np.ones_like(y), (X[:, 0], y)),
shape=(X[:, 0].max()+1, np.unique(y).shape[0])).A

但是对应的预期频率表很可能会有几个零元素。

编辑:

为了进一步阐明,请考虑第一个特征 X[:, 0],即 gender 和目标 y,比如说, 惯用手

由此我们得到交叉表

                Right-handed    Left-handed (!right-handed)
Male 1 2
Female (!male) 3 4

并且我们可以通过设置预期频率使用卡方检验来评估两个比例之间差异的显着性

expfreq

sklearn.feature_selection.chi2 直接执行此操作而不求助于显式计算表,并使用等效于 scipy.stats.chisquare 的更高效过程获得分数.

在明确列举上面显示的表格后,我想在应用 scipy.stats.chi2_contingency 时验证它是否与 chi2 一致,但令我沮丧的是,它不是.我想问一下为什么不是。

最佳答案

考虑 X 的列 xsklearn.feature_selection.chi2 测试是否y 值的频率,其中 x 为 1,与 y 的频率一致全部人口。 (@larsman 的回答显示了如何使用 numpy 和 scipy 重现计算。)这与标准的 2x2 列联表不同xy 的分析。在 2x2 列联表分析中,y 的频率其中 x 为 0 也有助于测试。

假设我们形成xy 的列联表:

    | y=0  y=1
----+---------
x=0 | a b
x=1 | c d

令 n = a + b + c + d。这是样本数(即与 len(x) 和 len(y) 相同)。

令 nx = c + d。这是 x1 的出现次数。

令 py1 = (b + d)/n。这是总人口中 y 为 1 的部分。

sklearn.feature_selection.chi2 使用预期的对 [c, d] 执行 chi2 测试值 [(1-py1)*nx, py1*nx]。这与标准列联表不同2x2 表格的分析。

这是一个极端的例子。假设 xy 的 2x2 列联表是

    |  y=0  y=1
----+----------
x=0 | 8 8
x=1 | 20 188

sklearn 计算产生的 chi2 分数为 1.58,p 值为 0.208。

scipy.stats.chi2_contingency 的列联表分析得出 chi2 分数为 18.6,p 值为 1.60e-5。

关于python - Scikit-learn χ²(卡方)统计量和相应的列联表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21281328/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com