gpt4 book ai didi

python - 在多索引数据帧中使用 "forward-fill"有效地重新索引一个级别

转载 作者:太空狗 更新时间:2023-10-30 00:02:34 26 4
gpt4 key购买 nike

考虑以下 DataFrame:

                          value
item_uid created_at

0S0099v8iI 2015-03-25 10652.79
0F01ddgkRa 2015-03-25 1414.71
0F02BZeTr6 2015-03-20 51505.22
2015-03-23 51837.97
2015-03-24 51578.63
2015-03-25 NaN
2015-03-26 NaN
2015-03-27 50893.42
0F02BcIzNo 2015-03-17 1230.00
2015-03-23 1130.00
0F02F4gAMs 2015-03-25 1855.96
0F02Vwd6Ou 2015-03-19 5709.33
0F04OlAs0R 2015-03-18 321.44
0F05GInfPa 2015-03-16 664.68
0F05PQARFJ 2015-03-18 1074.31
2015-03-26 1098.31
0F06LFhBCK 2015-03-18 211.49
0F06ryso80 2015-03-16 13.73
2015-03-20 12.00
0F07gg7Oth 2015-03-19 2325.70

我需要在两个日期 start_dateend_date 之间的每个日期对它们之间的完整数据帧进行采样,传播最后看到的值。采样应在每个 item_uid 中独立/分开进行。

例如,如果我们要在 2015-03-202015-03-29 之间对 0F02BZeTr6 进行采样,我们应该得到:

0F02BZeTr6 2015-03-20  51505.22
2015-03-21 51505.22
2015-03-22 51505.22
2015-03-23 51837.97
2015-03-24 51578.63
2015-03-25 51578.63
2015-03-26 51578.63
2015-03-27 50893.42
2015-03-28 50893.42
2015-03-29 50893.42

请注意,我正在向前填充数据框中的 NaN 缺失条目

This other question解决了类似的问题,但仅限于一组(即一个级别)。这个问题反而询问如何在每个组 (item_uid) 中分别做同样的事情。虽然我可以拆分输入数据帧并遍历每个组(每个 item_uid),然后将结果拼接在一起,但我想知道是否有更有效的方法。

当我执行以下操作时(请参阅 this PR):

dates         = pd.date_range(start=start_date, end=end_date)    
df.groupby(level='itemuid').apply(lambda x: x.reindex(dates, method='ffill'))

我得到:

TypeError: Fill method not supported if level passed

最佳答案

您有几个选择,最简单的 IMO 是简单地拆开第一层然后填充。我认为这比 groupby/resample 解决方案更清楚发生了什么(我怀疑它也会更快,具体取决于数据):

In [11]: df1['value'].unstack(0)
Out[11]:
item_uid 0F01ddgkRa 0F02BZeTr6 0F02BcIzNo 0F02F4gAMs 0F02Vwd6Ou 0F04OlAs0R 0F05GInfPa 0F05PQARFJ 0F06LFhBCK 0F06ryso80 0F07gg7Oth 0S0099v8iI
created_at
2015-03-16 NaN NaN NaN NaN NaN NaN 664.68 NaN NaN 13.73 NaN NaN
2015-03-17 NaN NaN 1230 NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-18 NaN NaN NaN NaN NaN 321.44 NaN 1074.31 211.49 NaN NaN NaN
2015-03-19 NaN NaN NaN NaN 5709.33 NaN NaN NaN NaN NaN 2325.7 NaN
2015-03-20 NaN 51505.22 NaN NaN NaN NaN NaN NaN NaN 12.00 NaN NaN
2015-03-23 NaN 51837.97 1130 NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-24 NaN 51578.63 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-25 1414.71 NaN NaN 1855.96 NaN NaN NaN NaN NaN NaN NaN 10652.79
2015-03-26 NaN NaN NaN NaN NaN NaN NaN 1098.31 NaN NaN NaN NaN
2015-03-27 NaN 50893.42 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

如果您遗漏了一些日期,您必须重新编制索引(假设开始和结束存在,否则您可以手动执行此操作,例如使用 pd.date_range):

In [12]: df1['value'].unstack(0).asfreq('D')
Out[12]:
item_uid 0F01ddgkRa 0F02BZeTr6 0F02BcIzNo 0F02F4gAMs 0F02Vwd6Ou 0F04OlAs0R 0F05GInfPa 0F05PQARFJ 0F06LFhBCK 0F06ryso80 0F07gg7Oth 0S0099v8iI
2015-03-16 NaN NaN NaN NaN NaN NaN 664.68 NaN NaN 13.73 NaN NaN
2015-03-17 NaN NaN 1230 NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-18 NaN NaN NaN NaN NaN 321.44 NaN 1074.31 211.49 NaN NaN NaN
2015-03-19 NaN NaN NaN NaN 5709.33 NaN NaN NaN NaN NaN 2325.7 NaN
2015-03-20 NaN 51505.22 NaN NaN NaN NaN NaN NaN NaN 12.00 NaN NaN
2015-03-21 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-22 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-23 NaN 51837.97 1130 NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-24 NaN 51578.63 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2015-03-25 1414.71 NaN NaN 1855.96 NaN NaN NaN NaN NaN NaN NaN 10652.79
2015-03-26 NaN NaN NaN NaN NaN NaN NaN 1098.31 NaN NaN NaN NaN
2015-03-27 NaN 50893.42 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

注意:asfreq 会删除索引的名称(这很可能是错误!)

现在你可以填充:

In [13]: df1['value'].unstack(0).asfreq('D').ffill()
Out[13]:
item_uid 0F01ddgkRa 0F02BZeTr6 0F02BcIzNo 0F02F4gAMs 0F02Vwd6Ou 0F04OlAs0R 0F05GInfPa 0F05PQARFJ 0F06LFhBCK 0F06ryso80 0F07gg7Oth 0S0099v8iI
2015-03-16 NaN NaN NaN NaN NaN NaN 664.68 NaN NaN 13.73 NaN NaN
2015-03-17 NaN NaN 1230 NaN NaN NaN 664.68 NaN NaN 13.73 NaN NaN
2015-03-18 NaN NaN 1230 NaN NaN 321.44 664.68 1074.31 211.49 13.73 NaN NaN
2015-03-19 NaN NaN 1230 NaN 5709.33 321.44 664.68 1074.31 211.49 13.73 2325.7 NaN
2015-03-20 NaN 51505.22 1230 NaN 5709.33 321.44 664.68 1074.31 211.49 12.00 2325.7 NaN
2015-03-21 NaN 51505.22 1230 NaN 5709.33 321.44 664.68 1074.31 211.49 12.00 2325.7 NaN
2015-03-22 NaN 51505.22 1230 NaN 5709.33 321.44 664.68 1074.31 211.49 12.00 2325.7 NaN
2015-03-23 NaN 51837.97 1130 NaN 5709.33 321.44 664.68 1074.31 211.49 12.00 2325.7 NaN
2015-03-24 NaN 51578.63 1130 NaN 5709.33 321.44 664.68 1074.31 211.49 12.00 2325.7 NaN
2015-03-25 1414.71 51578.63 1130 1855.96 5709.33 321.44 664.68 1074.31 211.49 12.00 2325.7 10652.79
2015-03-26 1414.71 51578.63 1130 1855.96 5709.33 321.44 664.68 1098.31 211.49 12.00 2325.7 10652.79
2015-03-27 1414.71 50893.42 1130 1855.96 5709.33 321.44 664.68 1098.31 211.49 12.00 2325.7 10652.79

然后把它叠回去(注意:如果你想包含起始的 NaN,你可以 dropna=False):

In [14]: s = df1['value'].unstack(0).asfreq('D').ffill().stack()

注意:如果索引的顺序很重要,您可以切换/排序:

In [15]: s.index = s.index.swaplevel(0, 1)

In [16]: s = s.sort_index()

In [17]: s.index.names = ['item_uid', 'created_at'] # as this is lost earlier

In [18]: s
Out[18]:
item_uid
0F01ddgkRa 2015-03-25 1414.71
2015-03-26 1414.71
2015-03-27 1414.71
0F02BZeTr6 2015-03-20 51505.22
2015-03-21 51505.22
2015-03-22 51505.22
2015-03-23 51837.97
2015-03-24 51578.63
2015-03-25 51578.63
2015-03-26 51578.63
2015-03-27 50893.42
...
0S0099v8iI 2015-03-25 10652.79
2015-03-26 10652.79
2015-03-27 10652.79
Length: 100, dtype: float64

这是否比 groupby/resample apply 解决方案更有效将取决于数据。对于非常稀疏的数据(有很多启动 NaN,假设你想放弃这些)我怀疑它不会那么快。如果数据密集(或者您想保留初始的 NaN),我怀疑这个解决方案应该更快。

关于python - 在多索引数据帧中使用 "forward-fill"有效地重新索引一个级别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29356412/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com