gpt4 book ai didi

python - 使用 Pandas 在滚动窗口中重新采样

转载 作者:太空狗 更新时间:2023-10-30 00:07:05 26 4
gpt4 key购买 nike

假设我有每日数据(不规则间隔),我想计算过去每个月的移动标准偏差(或任意非线性函数) 5个月。例如,对于 2012 年 5 月,我将计算 2012 年 1 月至 2012 年 5 月(5 个月)期间的 stddev。对于 2012 年 6 月,该期间从 2012 年 2 月开始,依此类推。最终结果是具有月值的时间序列。

不能应用滚动窗口,因为这首先是每天一次,其次我需要指定值的数量(滚动窗口不按时间范围聚合,一些帖子解决了这个问题 issue但它们与我的问题无关,因为滚动仍然适用于每一天)。

无法应用重采样,因为这样的话样本将每 5 个月采样一次,例如,我将只有 2012 年 5 月、2012 年 10 月、2013 年 3 月的值...最后,作为函数是非线性的,我无法通过先做月度样本然后在其上应用 5 个周期的滚动窗口来重建它。

所以我需要一种应用于由时间间隔(而不是值的数量)定义的滚动窗口的重采样功能。

我如何在 Pandas 中做到这一点?一种方法可能是将几个(在本例中为 5 个)重采样(5 个月)时间序列组合起来,每个时间序列都有一个月的偏移量,然后将所有这些序列对齐成一个......但我不知道如何实现这一点。

最佳答案

我在处理 timedelta 系列时遇到了类似的问题,我想采用移动平均线然后重新采样。这是一个示例,其中我有 100 秒的数据。我采用 10 秒窗口的滚动平均值,然后每 5 秒重新采样一次,在每个重新采样箱中获取第一个条目。结果应该是前 10 秒的平均值,增量为 5 秒。您可以使用月份格式而不是秒来做类似的事情:

df = pd.DataFrame(range(0,100), index=pd.TimedeltaIndex(range(0,100),'s'))
df.rolling('10s').mean().resample('5s').first()

结果:

             0
00:00:00 0.0
00:00:05 2.5
00:00:10 5.5
00:00:15 10.5
00:00:20 15.5
00:00:25 20.5
00:00:30 25.5
00:00:35 30.5
00:00:40 35.5
00:00:45 40.5
00:00:50 45.5
00:00:55 50.5
00:01:00 55.5
00:01:05 60.5
00:01:10 65.5
00:01:15 70.5
00:01:20 75.5
00:01:25 80.5
00:01:30 85.5
00:01:35 90.5

关于python - 使用 Pandas 在滚动窗口中重新采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24875671/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com