gpt4 book ai didi

python - 通过对数据进行分组来汇总 pandas 中的数据

转载 作者:行者123 更新时间:2023-11-30 22:33:02 25 4
gpt4 key购买 nike

这是数据框的子集:

         drug_id         A   B  C       type  
lexapro.13 1 SSRI
lexapro.13 1 1 SSRI
lexapro.13 1 SSRI
lexapro.13 1 SSRI
effexor.223 1 SNRI
effexor.223 1 SNRI
cymbalta.18 1 SNRI
cymbalta.18 1 SNRI

如您所见,药物 ID 重复,但 A、B 和 C 的值不同。首先,我需要按 drug_id 对数据进行分组,然后对于每个组,如果该组的任何行(例如 lexapro.13)中的 A 具有值“1”,则该组中的 A 具有值“1”,否则将得到 0。如果该组中任何行中的 B 值为“1”,则该组中的 B 将收到“1”,否则将收到 0,“C”也是如此。输出应如下所示:

        drug_id         A   B   C   type
lexapro.13 1 1 1 SSRI
effexor.223 0 1 1 SNRI
cymbalta.18 1 0 1 SNRI

我认为首先我需要使用 set_index 按 drug_id 列对数据进行分组,然后在该组中的 A 列中搜索值 1,在该组中的 B 列中搜索值 1,对于 C 也是如此。但我确实这样做不知道该怎么做。有什么建议吗?

最佳答案

您可以使用groupby和聚合max ,然后将 NaN 替换为 fillna ,通过 astype 转换为 ints最后,如果需要来自 index 的列,则添加 reset_index :

df = df.groupby('drug_id', sort=False).max().fillna(0).astype(int).reset_index()
print (df)
drug_id A B C
0 lexapro.13 1 1 1
1 effexor.223 0 1 1
2 cymbalta.18 1 0 1

另一个解决方案 any检查每组和每列是否至少有一个值不NaN:

df = df.groupby('drug_id', sort=False).any().fillna(0).astype(int).reset_index()
print (df)
drug_id A B C
0 lexapro.13 1 1 1
1 effexor.223 0 1 1
2 cymbalta.18 1 0 1

如果需要仅检查所有列中没有 drug_id1 值,则可以使用 difference 获取所有列名称然后通过eq1进行比较:

cols = df.columns.difference(['drug_id'])
df[cols] = df[cols].eq(1).astype(int)

df = df.groupby('drug_id', sort=False).max().reset_index()
#or
#df = df.groupby('drug_id', sort=False).any().reset_index()

编辑:

如果还有text列,需要agg用于聚合每一列,否则省略列。

d = {'A': [3.0, 1.0, np.nan, np.nan, np.nan, np.nan, np.nan, 1.0], 
'type': ['SSRI1', 'SSRI2', 'SSRI3', 'SSRI4', 'SNRI5', 'SNRI6', 'SNRI7', 'SNRI8'],
'drug_id': ['lexapro.13', 'lexapro.13', 'lexapro.13',
'lexapro.13', 'effexor.223', 'effexor.223', 'cymbalta.18', 'cymbalta.18'],
'B': [np.nan, np.nan, 1.0, 1.0, np.nan, 5.0, 4.0, 1.0],
'C': [np.nan, 1.0, np.nan, np.nan, 1.0, np.nan, 2.0, np.nan]}
df = pd.DataFrame(d, columns=['drug_id', 'A', 'B', 'C', 'type'])
print (df)
drug_id A B C type
0 lexapro.13 3.0 NaN NaN SSRI1
1 lexapro.13 1.0 NaN 1.0 SSRI2
2 lexapro.13 NaN 1.0 NaN SSRI3
3 lexapro.13 NaN 1.0 NaN SSRI4
4 effexor.223 NaN NaN 1.0 SNRI5
5 effexor.223 NaN 5.0 NaN SNRI6
6 cymbalta.18 NaN 4.0 2.0 SNRI7
7 cymbalta.18 1.0 1.0 NaN SNRI8

检查值1:

cols = df.columns.difference(['drug_id', 'type'])
df[cols] = df[cols].eq(1).astype(int)
print (df)
drug_id A B C type
0 lexapro.13 0 0 0 SSRI1
1 lexapro.13 1 0 1 SSRI2
2 lexapro.13 0 1 0 SSRI3
3 lexapro.13 0 1 0 SSRI4
4 effexor.223 0 0 1 SNRI5
5 effexor.223 0 0 0 SNRI6
6 cymbalta.18 0 0 0 SNRI7
7 cymbalta.18 1 1 0 SNRI8

动态准备字典 - 对于列type需要另一个函数。使用first对于每个组的第一个值或将所有值join与所有值连接到string:

d = {x:'max' for x in cols}
d['type'] = 'first'
print (d)
{'A': 'max', 'type': 'first', 'B': 'max', 'C': 'max'}

df1 = df.groupby('drug_id', sort=False).agg(d).reset_index().reindex_axis(df.columns, axis=1)
print (df1)
drug_id A B C type
0 lexapro.13 1 1 1 SSRI1
1 effexor.223 0 0 1 SNRI5
2 cymbalta.18 1 1 0 SNRI7

d = {x:'max' for x in cols}
d['type'] = ', '.join
print (d)
{'A': 'max', 'type': <built-in method join of str object at 0x000000000B447340>,
'B': 'max', 'C': 'max'}

df2 = df.groupby('drug_id', sort=False).agg(d).reset_index().reindex_axis(df.columns, axis=1)
print (df2)
drug_id A B C type
0 lexapro.13 1 1 1 SSRI1, SSRI2, SSRI3, SSRI4
1 effexor.223 0 0 1 SNRI5, SNRI6
2 cymbalta.18 1 1 0 SNRI7, SNRI8

关于python - 通过对数据进行分组来汇总 pandas 中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45267714/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com