gpt4 book ai didi

python - 用python中相同时间序列的重复值填充时间序列中的缺失值

转载 作者:行者123 更新时间:2023-12-04 15:12:18 24 4
gpt4 key购买 nike

我有一个像这样的间歇性每日数据的时间序列。

import pandas as pd
import numpy as np
df = pd.DataFrame({'Date': ['2020-01-01', '2020-01-02', '2020-01-02','2020-01-02','2020-01-03','2020-01-04','2020-01-07','2020-01-08','2020-01-08','2020-01-10','2020-01-13','2020-01-15'],
'Price': [200, 324, 320, 421, 240, np.NaN, 500, 520, 531, np.NaN, 571, np.NaN]})
df['Date']= pd.to_datetime(df['Date'])
df.set_index('Date')
df

结果:

+------------+-------+
| Date | Price |
+------------+-------+
| 2020-01-01 | 200 |
+------------+-------+
| 2020-01-02 | 324 |
+------------+-------+
| 2020-01-02 | 320 | -- 1st duplicate for 2020-01-02
+------------+-------+
| 2020-01-02 | 421 | -- 2nd duplicate for 2020-01-02
+------------+-------+
| 2020-01-03 | 240 |
+------------+-------+
| 2020-01-04 | NaN |
+------------+-------+
| 2020-01-07 | 500 |
+------------+-------+
| 2020-01-08 | 520 |
+------------+-------+
| 2020-01-08 | 531 | -- 1st duplicate for 2020-01-08
+------------+-------+
| 2020-01-10 | NaN |
+------------+-------+
| 2020-01-13 | 571 |
+------------+-------+
| 2020-01-15 | NaN |
+------------+-------+

我需要用最近可用日期的价格填充 NaN 值,其中记录了超过 1 个价格(重复),即

  • 320 应该从 2020-01-02 移到 2020-01-04
  • 421 从 2020-01-02 到 2020-01-10
  • 531 从 2020-01-08 到 2020-01-15

最佳答案

这是一个 Pandas 解决方案,一步一步

首先,我们按日期对价格进行分组,并将它们放入每个日期的列表中,然后将其展开到单独的列中,然后我们可以重命名

df2 = (
df.groupby('Date')['Price']
.apply(list)
.apply(pd.Series)
.rename(columns = {0:'Price',1:'Other'})
)
df2

所以我们得到


Price Other
Date
2020-01-01 200.0 NaN
2020-01-02 324.0 320.0
2020-01-03 240.0 NaN
2020-01-04 NaN NaN
2020-01-07 500.0 NaN
2020-01-08 520.0 NaN

这里的价格是那个日期的第一个价格,其他是那个日期的第二个价格,如果有的话

现在我们 ffill() Other,以便向前传播第二个值,直到找到新的第二个值等。

df2['Other'] = df2['Other'].ffill()

所以我们得到

            Price   Other
Date
2020-01-01 200.0 NaN
2020-01-02 324.0 320.0
2020-01-03 240.0 320.0
2020-01-04 NaN 320.0
2020-01-07 500.0 320.0
2020-01-08 520.0 320.0

现在我们可以用 Other 列中的值替换 Price 列中的 NaN,并删除 Other:

df2['Price'] = df2['Price'].fillna(df2['Other'])
df2.drop(columns = ['Other'], inplace = True)
df2

得到


Price
Date
2020-01-01 200.0
2020-01-02 324.0
2020-01-03 240.0
2020-01-04 320.0
2020-01-07 500.0
2020-01-08 520.0

关于python - 用python中相同时间序列的重复值填充时间序列中的缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64984229/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com