gpt4 book ai didi

python - scipy 中的卡方与 SPSS 中的结果不同

转载 作者:行者123 更新时间:2023-11-28 21:02:32 40 4
gpt4 key购买 nike

我正在尝试自动执行卡方计算。我正在使用 scipy.stats.pearsonr。但是,这给了我与 SPSS 不同的答案。就像,10 倍的差异。 (.07 --> .8)

我很确定这两种情况下的数据是相同的,因为我在这两种情况下都打印了交叉表(使用 pandas.crosstab)并且数字是相同的。

d1 = [1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1]

d2 = [1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 2, 1, 0, 1, 1, 2, 0, 2, 1, 2, 0, 0, 1]

print scipy.stats.stats.pearsonr(d1,d2)

给出:

 (-0.065191159985573108, 0.61172152831874682)

(第1个是系数,第2个是p值)

但是 SPSS 表示 Pearson 卡方为 .057。

除了交叉表,还有什么我应该检查的吗?

最佳答案

显然,您正在计算数据列联表(即“交叉表”)的卡方统计量和 p 值。 scipy 函数 pearsonr 不是用于此的正确函数。要使用 scipy 进行计算,您需要形成列联表,然后使用 scipy.stats.chi2_contingency .

有几种方法可以将 d1d2 转换为列联表。在这里,我将使用 Pandas 函数 pandas.crosstab .然后我将使用 chi2_contingency 进行卡方检验。

首先,这是您的数据。我将它们放在 numpy 数组中,但这不是必需的:

In [49]: d1
Out[49]:
array([1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0,
1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1])

In [50]: d2
Out[50]:
array([1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
1, 2, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0,
1, 1, 0, 1, 2, 1, 0, 1, 1, 2, 0, 2, 1, 2, 0, 0, 1])

使用 pandas 形成列联表:

In [51]: import pandas as pd

In [52]: table = pd.crosstab(d1, d2)

In [53]: table
Out[53]:
col_0 0 1 2
row_0
0 5 7 4
1 10 34 3

然后使用chi2_contingency 进行卡方检验:

In [54]: from scipy.stats import chi2_contingency

In [55]: chi2, p, dof, expected = chi2_contingency(table.values)

In [56]: p
Out[56]: 0.057230732412525138

p 值与 SPSS 计算的值匹配。


更新:在 SciPy 1.7.0(目标于 2021 年年中)中,您将能够使用 scipy.stats.contingency.crosstab 创建列联表:

In [33]: from scipy.stats.contingency import crosstab  # Will be in SciPy 1.7.0 
In [34]: d1
Out[34]:
array([1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1,
0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1,
0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1])

In [35]: d2
Out[35]:
array([1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1,
1, 1, 2, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1,
1, 0, 1, 1, 0, 1, 2, 1, 0, 1, 1, 2, 0, 2, 1, 2, 0, 0, 1])

In [36]: (vals1, vals2), table = crosstab(d1, d2)

In [37]: vals1
Out[37]: array([0, 1])

In [38]: vals2
Out[38]: array([0, 1, 2])

In [39]: table
Out[39]:
array([[ 5, 7, 4],
[10, 34, 3]])

关于python - scipy 中的卡方与 SPSS 中的结果不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47913123/

40 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com