gpt4 book ai didi

Python:根据多个分组对唯一变量进行分组和计数而无需重新计数

转载 作者:行者123 更新时间:2023-12-05 04:44:36 26 4
gpt4 key购买 nike

我有一个包含 3 列的数据框:

ID  Round  Investor
X 1 A
X 2 A
X 2 B
X 3 A
Y 1 A
Y 1 B
Y 1 C
Y 2 B
Y 2 D

并且想为每个 ID 计算每一轮的唯一投资者的数量。但我不希望它重新计算投资者是否在上一轮。我使用的代码是:

print(df.groupby(['ID', 'Round'])['Investor'].nunique())

结果是:

ID  Round  Unique Investor
X 1 1
2 2
2 2
3 1
Y 1 3
1 3
1 3
2 2
2 2

但我不认为当投资者为同一 ID 投资了较早的一轮时:

ID  Round  Unique Investor
X 1 1
2 1
2 1
3 0
Y 1 3
1 3
1 3
2 1
2 1

非常感谢任何帮助!

最佳答案

您可以定义一个辅助列 Investor2,它在 ID 下分组,并在具有 Series.drop_duplicates 的同一 ID 中删除重复项

然后,按照IDRound 进行分组,就像您之前在此Investor2 列中所做的那样,使用.transform()。和 nunique ,如下:

df['Unique Investor'] = (
df.assign(Investor2=df.groupby('ID')['Investor'].apply(pd.Series.drop_duplicates).droplevel(0))
.groupby(['ID', 'Round'])['Investor2'].transform('nunique')
)

结果:

print(df)

ID Round Investor Unique Investor
0 X 1 A 1
1 X 2 A 1
2 X 2 B 1
3 X 3 A 0
4 Y 1 A 3
5 Y 1 B 3
6 Y 1 C 3
7 Y 2 B 1
8 Y 2 D 1

关于Python:根据多个分组对唯一变量进行分组和计数而无需重新计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69335344/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com