gpt4 book ai didi

python - 如何聚合特定值的数据框?

转载 作者:太空宇宙 更新时间:2023-11-04 04:36:14 24 4
gpt4 key购买 nike

我有一个像这样的pandas数据框df

ID activity date
1 A 4
1 B 8
1 A 12
1 C 12
2 B 9
2 A 10
3 A 3
3 D 4

我想返回一个表,该表计算精确列表中某些 activity 的出现次数,在这种情况下说 l = [A, B] , 然后

ID activity(count)_A  activity(count)_B
1 2 1
2 1 2
3 1 0

是我需要的。

执行该操作的最快方法是什么?理想情况下没有 for 循环

谢谢!

编辑:我知道有 pivot 函数可以完成这种工作。但在我的例子中,我拥有的 activity 类型比我真正需要在列表 l 中计算的要多得多。使用 pivot 仍然是最佳选择吗?

最佳答案

您可以使用 isinboolean indexing作为第一步然后旋转 - 最快应该是 groupby , sizeunstack , 然后 pivot_table最后crosstab ,最好用真实数据测试每个解决方案:

df2 = (df[df['activity'].isin(['A','B'])]
.groupby(['ID','activity'])
.size()
.unstack(fill_value=0)
.add_prefix('activity(count)_')
.reset_index()
.rename_axis(None, axis=1))

print (df2)
ID activity(count)_A activity(count)_B
0 1 2 1
1 2 1 1
2 3 1 0

或者:

df1 = df[df['activity'].isin(['A','B'])]

df2 = (pd.crosstab(df1['ID'], df1['activity'])
.add_prefix('activity(count)_')
.reset_index()
.rename_axis(None, axis=1))

或者:

df2 = (df[df['activity'].isin(['A','B'])]
.pivot_table(index='ID', columns='activity', aggfunc='size', fill_value=0)
.add_prefix('activity(count)_')
.reset_index()
.rename_axis(None, axis=1))

关于python - 如何聚合特定值的数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51638129/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com