gpt4 book ai didi

Pandas:删除所有重复索引的记录

转载 作者:行者123 更新时间:2023-12-04 01:54:26 25 4
gpt4 key购买 nike

我有一个数据集,其中包含可能重复的标识符记录 appkey .理想情况下,重复记录不应该存在,因此我认为它们是数据收集错误。我需要删除 appkey 的所有实例发生不止一次。
drop_duplicates方法在这种情况下(或者是?)没有用,因为它选择第一个或最后一个重复项。有没有明显的成语可以用 Pandas 来实现这一点?

最佳答案

从 pandas 0.12 版本开始,我们有 filter为此。它完全符合@Andy 的解决方案使用 transform 所做的工作,但更简洁,速度更快。

df.groupby('AppKey').filter(lambda x: x.count() == 1)

窃取@Andy 的例子,
In [1]: df = pd.DataFrame([[1, 2], [1, 4], [5, 6]], columns=['AppKey', 'B'])

In [2]: df.groupby('AppKey').filter(lambda x: x.count() == 1)
Out[2]:
AppKey B
2 5 6

关于Pandas:删除所有重复索引的记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18851216/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com