gpt4 book ai didi

python - 在 Pandas 数据框中查找频繁用户

转载 作者:行者123 更新时间:2023-11-28 22:51:09 25 4
gpt4 key购买 nike

我有一个 pandas 数据框,其中包含名为 user_id 和 login_date 的列,我想获取频繁用户(即多次登录)的 ID 和他们的登录频率。

为此,我尝试了:

    frequent_users = df.groupby(['login_date', 'user_id']).agg({"user_id": lambda x: x.count()})

结果是:

2011-01-17

          556     1
456 1
958 1
374 2

2011-01-18

          789     1
434 4
654 1

问题是,如何删除或过滤掉频率为 1 的所有条目?

编辑:

这是一个例子:

    login_dates = ['2011-01-17', '2011-01-17', '2011-01-17', '2011-01-17', '2011-01-17', '2011-01-18', '2011-01-18','2011-01-18','2011-01-18', '2011-01-18', '2011-01-18']
user_id =[556,456,958,347,347,789,434,434,434,434,654]
df = DataFrame({'login_date': login_dates, 'user_id': user_id})
frequent_users = df.groupby(['login_date', 'user_id']).agg({"user_id": lambda x: x.count()})

最佳答案

我认为在这里使用 apply 可能更简单:

# instead of lambda x: x.count()
def count_more_than_one(x):
c = x.value_counts()
return c[c > 1]

In [11]: df.groupby(['login_date'])['user_id'].apply(count_more_than_one)
Out[11]:
login_date
2011-01-17 347 2
2011-01-18 434 4
dtype: int64

In [12]: df.groupby(['login_date'])['user_id'].apply(count_more_than_one).unstack(1)
Out[12]:
347 434
login_date
2011-01-17 2 NaN
2011-01-18 NaN 4

关于python - 在 Pandas 数据框中查找频繁用户,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21964990/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com