gpt4 book ai didi

python - 根据多列中的值从数据框中删除重复行

转载 作者:行者123 更新时间:2023-12-01 22:55:08 25 4
gpt4 key购买 nike

<表类="s-表"><头>电子邮件<日>日期 名称完成<正文>aaa@xyz.com01-07-2022 12:40:00詹姆斯否aaa@xyz.com01-07-2022 12:10:00詹姆斯是aaa@xyz.com01-07-2022 12:19:00詹姆斯是aaa@xyz.com01-07-2022 12:30:00詹姆斯否bbb@xyz.com02-07-2022 08:04:00克拉克是bbb@xyz.com02-07-2022 08:08:00克拉克是bbb@xyz.com02-07-2022 08:13:00克拉克否bbb@xyz.com02-07-2022 08:28:00克拉克否

在上面的数据框中,我想删除与 name/email-id 关联的多行并保留最早的时间。

输出

<表类="s-表"><头>电子邮件<日>日期 名称完成<正文>aaa@xyz.com01-07-2022 12:10:00詹姆斯是aaa@xyz.com01-07-2022 08:04:00克拉克是

这是我试过的;

df = df.sort_values('date')
df = df.groupby('date').first()

这最终创建了日期作为索引。我不想将我正在排序的列创建为索引,我想就地排序。基本上,我想获得每个姓名和电子邮件的最早“日期”。 'name' 和 'email' 列都有重复的值,唯一的区别因素是 'date' 列中的值。在特定人员的“日期”列中的所有值中,我只想保留完成时的最早日期 ="is"并删除所有其他行。

最佳答案

df.sort_values('date').groupby(['email', 'name']).first().reset_index()

给予

<表类="s-表"><头>索引电子邮件名字<日>日期 完成<正文>0aaa@xyz.com詹姆斯01-07-2022 12:10:00是1bbb@xyz.com克拉克02-07-2022 08:04:00是

关于python - 根据多列中的值从数据框中删除重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73451292/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com