gpt4 book ai didi

python - 在 Pandas 数据框中查找重复值的计数和排序

转载 作者:太空狗 更新时间:2023-10-30 02:18:16 33 4
gpt4 key购买 nike

我有一个包含许多列的 Pandas 数据框,其中两个是“电影标题”和“年龄”,我想找到评分者平均年龄最低的前 5 部电影,但只包括以下电影至少有 100 个评分(因此出现在至少 100 行中)。

例如:

movie title      age

Title 1 10
Title 2 12
Title 2 12
Title 3 13
Title 3 13
Title 3 13

应该变成:

movie title     # of ratings     avg age

Title 1 1 10
Title 2 2 12
Title 3 3 13

它可以在相同的或新的数据框中。感谢您的帮助!

最佳答案

说你做

agg = df.age.groupby([df['movie title']]).agg({'ave_age': 'mean', 'size': 'size'})

您将获得一个包含列 ave_agesize 的 DataFrame。

agg[agg['size'] > 100]

只会为您提供那些拥有超过 100 个用户的用户。从那里开始,按 agg.ave_age 排序并获得前 5 名。它应该看起来像这样:

agg[agg['size'] > 100].sort_values(by='ave_age', ascending=True).head(5)

关于python - 在 Pandas 数据框中查找重复值的计数和排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36377972/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com