gpt4 book ai didi

Python:大型数据集中分类值的卡方

转载 作者:太空宇宙 更新时间:2023-11-03 10:52:36 25 4
gpt4 key购买 nike

我没有使用 Python 的经验,我正在尝试使用它对非常大的数据集(1000 万个案例)进行统计分析,因为其他选项(SPSS 和 R)无法在授权硬件上处理数据集.

在这个数据集中,有很多分类变量(Diagnosis1、Diagnosis2...Diagnosis30)和一个事件变量(因变量)。
个案列为行。

像这样

Diagnosis1       Diagnosis2         Diagnosis3   Event
1 0 0 1
0 1 0 0
0 1 0 0

....等等

我可以加载数据并用它查看 -

    import pandas as pd
import numpy as np
NRD_Data = pd.read_csv('NRD_DL.csv')
NRD_Data.head()

但我对如何构建 2x2 表格以及如何在表格上执行卡方检验感到困惑。

            Diagnosis1=1   Diagnosis1=0
Event=1 100 12
Event=0 80 45

类似于在 SPSS 上运行交叉表来比较分类值的东西是所需的结果。

最佳答案

使用pd.crosstab得到你需要的矩阵,然后你可以做你的卡方检验

l=['Diagnosis1',  'Diagnosis2',  'Diagnosis3']
d=[]
for i in l:
d.append(pd.crosstab(df['Event'],df[i]))
d[0]
Out[569]:
Diagnosis1 0 1
Event
0 2 0
1 0 1

关于Python:大型数据集中分类值的卡方,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47293579/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com