gpt4 book ai didi

python - pandas - resample - 在下采样之前进行上采样

转载 作者:太空宇宙 更新时间:2023-11-04 03:26:19 33 4
gpt4 key购买 nike

我有一个 pandas 数据框,其中包含不同时间尺度的信息,即在某些时期我每秒有 100 个数据点,而在其他时期我每分钟有 1 个数据点。

我的目标是使用固定时间窗口(例如:1 秒)重新采样此数据帧,在上采样时使用 last 进行正则化,在下采样时使用均值。

此外,我希望指定算法执行这两种操作(下采样和上采样)的顺序,因为我需要先执行上采样(使用 last),然后再执行下采样(使用 mean)。

这完全可以使用 pandas resample 函数吗?

例如,在下面的示例代码中,我希望在结果数据框中包含以下值:0 到 10 秒之间为 0.5(平均),10 到 19 秒之间为 0(最后),19 到 39 之间为 10秒。

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'value' : np.repeat(1,10)}, index=pd.date_range('2010-01-01 00:00:00', periods=10, freq='1S'))
df2 = pd.DataFrame({'value' : np.repeat(0,10)}, index=pd.date_range('2010-01-01 00:00:00.5', periods=10, freq='1S'))
df3 = pd.DataFrame({'value' : np.repeat(10,3)}, index=pd.date_range('2010-01-01 00:00:19', periods=3, freq='10S'))

df = pd.concat([df1, df2, df3], axis=0)
df = df.sort_index()

df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='mean')

你建议我如何解决这个问题?

编辑:我的真实数据框很大,因此我想尽量减少操作的数量,尤其是那些涉及对象复制的操作。

最佳答案

首先使用下采样进行传统重采样:

df_new = df.resample(rule='1S')

然后是上采样,您可以在其中更新 下采样数据,但不要覆盖它。您正在使用前向上采样数据填充空白:

df_new.update(df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='last'), 
overwrite=False)

>>> df_new
value
2010-01-01 00:00:00 0.5
2010-01-01 00:00:01 0.5
2010-01-01 00:00:02 0.5
2010-01-01 00:00:03 0.5
2010-01-01 00:00:04 0.5
2010-01-01 00:00:05 0.5
2010-01-01 00:00:06 0.5
2010-01-01 00:00:07 0.5
2010-01-01 00:00:08 0.5
2010-01-01 00:00:09 0.5
2010-01-01 00:00:10 0.0
2010-01-01 00:00:11 0.0
2010-01-01 00:00:12 0.0
2010-01-01 00:00:13 0.0
2010-01-01 00:00:14 0.0
2010-01-01 00:00:15 0.0
2010-01-01 00:00:16 0.0
2010-01-01 00:00:17 0.0
2010-01-01 00:00:18 0.0
2010-01-01 00:00:19 10.0
2010-01-01 00:00:20 10.0
2010-01-01 00:00:21 10.0
2010-01-01 00:00:22 10.0
2010-01-01 00:00:23 10.0
2010-01-01 00:00:24 10.0
2010-01-01 00:00:25 10.0
2010-01-01 00:00:26 10.0
2010-01-01 00:00:27 10.0
2010-01-01 00:00:28 10.0
2010-01-01 00:00:29 10.0
2010-01-01 00:00:30 10.0
2010-01-01 00:00:31 10.0
2010-01-01 00:00:32 10.0
2010-01-01 00:00:33 10.0
2010-01-01 00:00:34 10.0
2010-01-01 00:00:35 10.0
2010-01-01 00:00:36 10.0
2010-01-01 00:00:37 10.0
2010-01-01 00:00:38 10.0
2010-01-01 00:00:39 10.0

您不能在单个 resample 操作中混合上采样/下采样。只要您获得所需的结果,我不确定为什么操作顺序对您很重要。

关于python - pandas - resample - 在下采样之前进行上采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32845284/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com