gpt4 book ai didi

python - 在 Python 中使用 pandas 对过滤后的数据应用过滤器

转载 作者:太空宇宙 更新时间:2023-11-04 04:22:28 25 4
gpt4 key购买 nike

<分区>

我有一个 pandas 数据框,我想以一种我还没有发现的方式在一个又一个过滤器中应用过滤器。为了提供更多上下文,A 列是不同 IP 的占位符,而 B 列是公司 ID 的占位符。我希望第一个过滤器查看某个 IP 出现的次数。如果 IP 仅出现一次或 IP 出现超过 3 次,则应排除这些行。这部分,我设法解决了。现在的问题是,我希望保留在数据库中的每个 IP 至少有 2 个不同的公司访问。代码贴在下面,之后会有输出和预期的输出。

import pandas as pd

df = pd.DataFrame({'A': ['001', '001', '002', '003', '003', '003', '003', '004', '004'],
'B': ['firm_a', 'firm_a', 'firm_b', 'firm_a', 'firm_c', 'firm_d', 'firm_a', 'firm_a', 'firm_b']},
index=[0, 1, 2, 3, 4, 5, 6, 7, 8])

df = df.groupby('A').filter(lambda x: len(x) > 1)
df = df.groupby('A').filter(lambda x: len(x) < 4)

print(df)

当前输出:

     A       B
0 001 firm_a
1 001 firm_a
7 004 firm_a
8 004 firm_b

现在,我想实现第二个过滤器,检查一个 IP 是否访问了至少 2 个不同的公司。在提供的示例中,预期输出如下:

     A       B
7 004 firm_a
8 004 firm_b

如您所见,IP 001 被删除是因为它通过了第一个过滤器(访问了 2 个或更多公司),但它访问了同一家公司并被淘汰。我不知道如何实现第二部分。我试着环顾四周,虽然那里有很多关于过滤的 Pandas 教程,但我没有找到适合我的问题的内容。虽然是的,但我可以在 python 中通过将每个 IP 分开并获得访问的公司列表,消除重复项并查看列表的长度是否大于 1,这在计算上非常昂贵。我有将近 10 亿行,这样做会花费太多时间。有什么聪明的方法可以设置它吗?

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com