gpt4 book ai didi

python - 如何根据 id 和 "original date"范围填充 Pandas 数据框?

转载 作者:行者123 更新时间:2023-12-04 01:11:04 29 4
gpt4 key购买 nike

我有一个 DataFrame,其中有 1000 行和 100 列,我想在其中转发数据,但按 id 和原始数据(日期范围)分组。我的原始数据的意思是,如果我们有日期 01/01/2020 的 id 1 数据但日期 01/05/2020、02/02/2020 的空值,我想填写 01/05 的数据/2020 但不是 02/02/2020,因为 02/02/2020 不在 30 天内。当我们填充时,它会根据最后的结果填充所有数据。

import pandas as pd
import numpy as np

res= pd.DataFrame({'id':[1,1,1,1,1,2,2],
'date':['01/01/2020','01/05/2020','02/03/2020','02/05/2020','04/01/2020','01/01/2020','01/02/2020'],
'result':[1.5,np.nan,np.nan,2.6,np.nan,np.nan,6.0]})

res['result1']= res.groupby(['id']).apply(lambda x: x.result.ffill()).reset_index(drop=True)
我得到的结果是:
   id        date  result  result1
0 1 01/01/2020 1.5 1.5
1 1 01/05/2020 NaN 1.5
2 1 02/03/2020 NaN 1.5
3 1 02/05/2020 2.6 2.6
4 1 04/01/2020 NaN 2.6
5 2 01/01/2020 NaN NaN
6 2 01/02/2020 6.0 6.0
我想要的是:
   id        date  result  result1
0 1 01/01/2020 1.5 1.5
1 1 01/05/2020 NaN 1.5
2 1 02/03/2020 NaN NaN
3 1 02/05/2020 2.6 2.6
4 1 04/01/2020 NaN NaN
5 2 01/01/2020 NaN NaN
6 2 01/02/2020 6.0 6.0

最佳答案

你可以试试 merge_asof

res['date']=pd.to_datetime(res['date'])
res = res.sort_values('date')
res1 = res.dropna(subset=['result']).rename(columns={'result':'result1'})
out = pd.merge_asof(res.reset_index(),res1 , by ='id', on ='date',tolerance = pd.Timedelta(30, unit='d'),direction = 'backward').sort_values('index')
Out[72]:
index id date result result1
0 0 1 2020-01-01 1.5 1.5
3 1 1 2020-01-05 NaN 1.5
4 2 1 2020-02-03 NaN NaN
5 3 1 2020-02-05 2.6 2.6
6 4 1 2020-04-01 NaN NaN
1 5 2 2020-01-01 NaN NaN
2 6 2 2020-01-02 6.0 6.0

关于python - 如何根据 id 和 "original date"范围填充 Pandas 数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64823797/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com