gpt4 book ai didi

python - 根据 .sum() 总计过滤 Pandas 系列

转载 作者:行者123 更新时间:2023-12-01 01:50:04 25 4
gpt4 key购买 nike

我的数据包含每个用户一行,然后根据用户与特定产品类别的交互填充许多列,其中包含 10

我正在运行一些相关性分析,并且我想删除不太重要的类别以使我的分析更易于阅读,我在数据帧上使用了 .sum() 来查看以下类别与大多数进行交互,但我现在如何才能在这个集合上运行关联?

这是我的 .sum() 的输出示例:

shoes_and_flats                                                                                           37
nightwear_and_slippers 61
shorts_and_shorts 23
accessories_and_fragrance 25
jackets_and_coats_and_wool 12
dresses_and_skirts_and_sleeveless_dresses 35
swimwear_and_bikinis 49
dresses_and_skirts_and_floral_dresses 7
jackets_and_coats_and_harrington_jackets 18
dresses_and_skirts_and_tunic_dresses 8
sports_performance_tops_and_vests 4
jeans_and_bootcut_jeans 2
nightwear_and_nightwear 1

通过执行...创建

总计 = df.sum()

我决定删除互动次数少于 50 次的类别,因此我使用了...总计 = 总计[1: -1].sort_values() > 50

但这会返回所有类别,无论其 TrueFalse 值如何。

我的最终目标是在数据上使用 .corr(),我如何运行它并仅返回类别具有超过 50 次交互的网格?

最佳答案

您想要过滤数据框中的列。您的结果是正确的,TrueFalse 结果,您只需使用它作为过滤器

假设数据位于名为 df 的数据框中,这将仅返回您想要的列:

totals = df.sum()
df[totals[totals > 50].index]

关于python - 根据 .sum() 总计过滤 Pandas 系列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50816520/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com