gpt4 book ai didi

Python数据帧计算两列中出现的次数

转载 作者:太空宇宙 更新时间:2023-11-04 01:04:45 24 4
gpt4 key购买 nike

两个数据框列:

data['IP']          data['domain']
10.20.30.40 example.org
10.20.30.40 example.org
10.20.30.40 example.org
10.20.30.40 example.org
1.2.3.4 google.com
1.2.3.4 google.com
1.2.3.4 google.com
200.100.200.100 yahoo.com
200.100.200.100 yahoo.com
9.8.7.6 random.com

我想找到一种有效的方法来计算每个域被映射到同一 IP 地址的次数。然后,如果出现次数超过 two(2) ,则获取特定域(但仅限唯一值)并将它们移动到另一个数据框或列。

所以输出可能是这样的:

[Occurences]    [To be processed]
4 example.org
4 google.com
4
4
3
3
3

我已经尝试过不同的东西,比如图,然后取节点的度数,以及数据透视表来表示数字,但我想要一种有效的方法,让我能够继续处理if occur>2 语句之后。

所有的都应该用 python panda dataframes 来实现!

最佳答案

以下执行 groupby在“域”上,然后调用 value_counts在“IP”地址上,我们然后对其进行过滤并重置索引并重命名列,以便它们更有意义:

In [58]:
gp = df.groupby('domain')['IP'].value_counts()
df1 = gp[gp > 2].reset_index()
df1.rename(columns={'level_1': 'IP', 0:'Occurences'}, inplace=True)
df1

Out[58]:
domain IP Occurences
0 example.org 10.20.30.40 4
1 google.com 1.2.3.4 3

关于Python数据帧计算两列中出现的次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31003229/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com