gpt4 book ai didi

python - 如何根据 pandas 的第二列删除重复项?

转载 作者:太空宇宙 更新时间:2023-11-04 09:29:32 25 4
gpt4 key购买 nike

import pandas as pd

df = pd.DataFrame({
'year': [2017, 2018, 2018, 2019, 2019],
'date': ['01.01.2017', '22.04.2018', '31.01.2018', '19.03.2019', '03.12.2019'],
'id': ['72297143', '6de190ee', '0e1e8e89', 'ab4f99ab', '7d81a711']
})

对于 year 列中的每个重复值(如 2019 和 2019),我想保留具有最新 date 的值(在上面的示例中为 03.12。 2019)。

最后我想删除 date 列,只保留 yearid

我该怎么做?

最佳答案

sort_values 之后使用 drop_duplicated

df.date=pd.to_datetime(df.date,dayfirst=True)
yourdf=df.sort_values('date').drop_duplicates('year',keep='last')
yourdf
Out[413]:
year date id
0 2017 2017-01-01 72297143
1 2018 2018-04-22 6de190ee
4 2019 2019-12-03 7d81a711
yourdf.drop('id',axis=1,inplace=True)

关于python - 如何根据 pandas 的第二列删除重复项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56228145/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com