- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在 scikit-learn 的卡方单变量特征选择函数的文档中 http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html , 它指出
This score can be used to select the n_features features with the highest values for the χ² (chi-square) statistic from X, which must contain booleans or frequencies (e.g., term counts in document classification), relative to the classes.
我很难理解相应的列联表是什么样的,尤其是在频率特征的情况下。
例如,考虑以下具有 bool 特征和目标的数据集:
import numpy as np
>>> X = np.random.randint(2, size=50).reshape(10, 5)
array([[1, 0, 0, 0, 1],
[1, 1, 0, 1, 1],
[1, 0, 0, 0, 0],
[0, 0, 0, 0, 0],
[0, 0, 0, 0, 1],
[1, 0, 0, 0, 1],
[1, 0, 1, 1, 1],
[0, 1, 1, 0, 0],
[1, 0, 1, 1, 1],
[1, 1, 1, 1, 0]])
>>> y = np.random.randint(2, size=10)
array([1, 0, 0, 0, 1, 1, 1, 1, 0, 1])
要构建关于第一个特征的列联表,我们可以这样做(请原谅我违反了 PEP8)
import scipy as sp
>>> contingency_table = sp.sparse.coo_matrix(
... (np.ones_like(y), (X[:, 0], y)),
... shape=(np.unique(X[:, 0]).shape[0], np.unique(y).shape[0])).A
array([[1, 2],
[3, 4]])
现在我可以计算卡方统计量及其 p 值
>>> sp.stats.chi2_contingency(contingency_table)
(0.17857142857142855,
0.67260381744151676,
1,
array([[ 1.2, 1.8],
[ 2.8, 4.2]]))
这应该与 scikit-learn 的 chi2
from sklearn.feature_selection import chi2
>>> chi2_, pval = chi2(X, y)
>>> chi2_[0], pval[0]
(0.023809523809523787, 0.87737055606414338)
...不。我误解了什么吗?
此外,列联表在频率的情况下是什么样子的?我以为会是这样的
contingency_table = sp.sparse.coo_matrix(
(np.ones_like(y), (X[:, 0], y)),
shape=(X[:, 0].max()+1, np.unique(y).shape[0])).A
但是对应的预期频率表很可能会有几个零元素。
编辑:
为了进一步阐明,请考虑第一个特征 X[:, 0]
,即 gender 和目标 y
,比如说, 惯用手。
由此我们得到交叉表
Right-handed Left-handed (!right-handed)
Male 1 2
Female (!male) 3 4
并且我们可以通过设置预期频率使用卡方检验来评估两个比例之间差异的显着性
sklearn.feature_selection.chi2
直接执行此操作而不求助于显式计算表,并使用等效于 scipy.stats.chisquare
的更高效过程获得分数.
在明确列举上面显示的表格后,我想在应用 scipy.stats.chi2_contingency
时验证它是否与 chi2
一致,但令我沮丧的是,它不是.我想问一下为什么不是。
最佳答案
考虑 X
的列 x
。 sklearn.feature_selection.chi2
测试是否y
值的频率,其中 x
为 1,与 y
的频率一致全部人口。 (@larsman 的回答显示了如何使用 numpy 和 scipy 重现计算。)这与标准的 2x2 列联表不同x
和 y
的分析。在 2x2 列联表分析中,y
的频率其中 x
为 0 也有助于测试。
假设我们形成x
和y
的列联表:
| y=0 y=1
----+---------
x=0 | a b
x=1 | c d
令 n = a + b + c + d。这是样本数(即与 len(x) 和 len(y) 相同)。
令 nx = c + d。这是 x
中 1
的出现次数。
令 py1 = (b + d)/n。这是总人口中 y 为 1 的部分。
sklearn.feature_selection.chi2
使用预期的对 [c, d] 执行 chi2 测试值 [(1-py1)*nx, py1*nx]。这与标准列联表不同2x2 表格的分析。
这是一个极端的例子。假设 x
和 y
的 2x2 列联表是
| y=0 y=1
----+----------
x=0 | 8 8
x=1 | 20 188
sklearn 计算产生的 chi2 分数为 1.58,p 值为 0.208。
scipy.stats.chi2_contingency
的列联表分析得出 chi2 分数为 18.6,p 值为 1.60e-5。
关于python - Scikit-learn χ²(卡方)统计量和相应的列联表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21281328/
我需要构建一个可视化图表来表示录制文件中的语音级别 (dB)。我尝试这样做: NSError *error = nil; AVAudioPlayer *meterPlayer = [[AVAudioP
来自 DropWizard 我已经习惯了它的 HttpClientConfiguration我感到困惑的是,在 Spring Boot 中,我找不到一些支持以类似的方式控制要使用的 http 客户端实
我一直在 GAE 上开发一个 java 应用程序,它使用云 sql、calender api、邮件 API 和数据存储等服务。所以我的问题是我需要为访问我的应用程序的用户计量这些服务的使用情况。这将基
我是一名优秀的程序员,十分优秀!