gpt4 book ai didi

python - Pandas 时间序列 : groupby and rolling average of irregularly spaced data over regular 10-minute windows

转载 作者:行者123 更新时间:2023-12-01 08:52:45 28 4
gpt4 key购买 nike

我有一个如下所示的数据框:

|-----------------------------------------------------|
| | category | pct_formation |
|-----------------------------------------------------|
|ts_timestamp | | |
|-----------------------------------------------------|
|2018-10-22 10:13:44.043 | in_petr | 37.07 |
|2018-10-22 10:17:09.527 | in_petr | 36.97 |
|2018-10-22 10:17:43.977 | in_dsh | 36.95 |
|2018-10-22 10:17:43.963 | in_dsh | 36.96 |
|2018-10-22 10:17:09.527 | in_petr | 32.96 |
|2018-10-22 10:19:44.040 | out_petr | 36.89 |
|2018-10-23 10:19:44.043 | out_petr | 36.90 |
|2018-10-23 10:19:37.267 | sync | 33.91 |
|2018-10-23 10:19:44.057 | sync | 36.96 |
|2018-10-23 10:19:16.750 | out_petr | 36.88 |
|2018-10-23 10:20:03.160 | sync | 36.98 |
|2018-10-23 10:20:32.350 | sync | 37.00 |
|2018-10-23 10:23:03.150 | sync | 34.58 |
|2018-10-23 10:22:18.633 | in_dsh | 36.98 |
|2018-10-23 10:25:39.557 | in_dsh | 36.97 |
|-----------------------------------------------------|

数据包含每天不同时间收集的各种类别的 pct_formation 值(频率不规则、间隔不均匀)。

我想比较每天上午 9 点到上午 11 点之间 10 分钟滚动窗口的每个类别的平均 pct_formation 或一周的平均值。

问题是每个类别的数据并不总是在上午 9 点开始输入。对于某些人来说,它从上午 9.10 开始,对于某些人来说是上午 9.15 点,对于某些人来说是上午 10 点等等。此外,数据并不是定期出现的。如何获取每天上午 9 点到上午 11 点之间每个类别的 10 分钟滚动平均值?

最初,我将 ts_timestamp 列转换为索引:

df = df.set_index('ts_timestamp')

然后,我可以groupby并使用rolling():

df.groupby('category').rolling('10T').agg({'pct_formation': 'mean'})

但是,这并没有显示定期的 10 分钟间隔,而是显示数据帧中的时间戳。

我意识到我需要创建一个像这样的数据范围才能用作索引:

pd.date_range(start=df.index.min().replace(hour=9, minute=0, second=0, microsecond=0),
end=df.index.max().replace(hour=11, minute=0, second=0, microsecond=0),
freq='10T')
#
# or should I use freq='1T' so that rolling() can do 10 minute intervals?

但是,如何将我的数据框与此范围对齐?如何对范围内出现的多个值进行平均?

我是处理时间序列数据的新手,希望得到任何帮助。如果有什么不清楚的地方请随时询问。

最佳答案

使用pd.Grouper:

df.groupby(['类别', pd.Grouper(key = 'ts_timestamp', freq = '10Min')]).\
agg({'pct_formation': 'mean'})

输出:

                                    pct
cat ts
in_dsh 2018-10-22 10:10:00 36.955000
in_petr 2018-10-22 10:10:00 35.666667
out_petr 2018-10-22 10:10:00 36.890000
2018-10-23 10:10:00 36.900000
sync 2018-10-23 10:10:00 35.435000

关于python - Pandas 时间序列 : groupby and rolling average of irregularly spaced data over regular 10-minute windows,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53000328/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com