gpt4 book ai didi

python - 迭代以查找 Pandas 数据框中的重复值

转载 作者:行者123 更新时间:2023-11-30 22:18:35 24 4
gpt4 key购买 nike

Windows 10、Python 3.6

我有一个数据框 df

df=pd.DataFrame({'name':['boo', 'foo', 'too', 'boo', 'roo', 'too'],
'zip':['30004', '02895', '02895', '30750', '02895', '02895']})

我想找到具有相同“名称”和“zip”的重复记录,并记录重复次数。想法输出是

  name repeat    zip
0 too 1 02895

因为我的数据框远远超过六行,所以我需要使用迭代方法。我很感激任何提示。

最佳答案

我相信你需要groupby所有列并使用 GroupBy.size :

#create DataFrame from online source
#df = pd.read_csv('someonline.csv')
#df = pd.read_html('someurl')[0]

#L = []
#for x in iterator:
#in loop added data to list
# L.append(x)
##created DataFrame from contructor
#df = pd.DataFrame(L)

df = df.groupby(df.columns.tolist()).size().reset_index(name='repeat')
#if need specify columns
#df = df.groupby(['name','zip']).size().reset_index(name='repeat')
print (df)
name zip repeat
0 boo 30004 1
1 boo 30750 1
2 foo 02895 1
3 roo 02895 1
4 too 02895 2

关于python - 迭代以查找 Pandas 数据框中的重复值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49339512/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com