gpt4 book ai didi

python - pandas 通过时间索引打破数据帧的快速方法

转载 作者:行者123 更新时间:2023-12-01 05:21:16 25 4
gpt4 key购买 nike

我有一个带有时间索引的数据框。但时间索引不连续。

具有微秒分辨率时间戳索引的 df。

时间出价
2014-03-03 23:30:30.383002 1.37315
2014-03-03 23:30:30.383042 1.37318
2014-03-03 23:30:30.383067 1.37318
2014-03-03 23:30:31.174442 1.37315
2014-03-03 23:30:32.028966 1.37315
2014-03-03 23:30:32.052447 1.37315

我想检查是否有分钟没有任何数据,所以我重新采样

tick_count = e.resample('1Min', how=np.size)

时间出价
2014-03-04 00:15:00 73
2014-03-04 00:16:00 298
2014-03-04 00:17:00 124
2014-03-04 00:18:00 318
2014-03-04 00:19:00 27
2014-03-04 00:20:00 0
2014-03-04 00:21:00 0
2014-03-04 00:22:00 241
2014-03-04 00:23:00 97
2014-03-04 00:24:00 52
2014-03-04 00:25:00 446
2014-03-04 00:26:00 867

所以这里我发现两分钟没有数据,如何将原始的df分成多个df 并且每个人每分钟都有数据。在上面的例子中

第一个 df 将从 00:15 到 00:19 开始,第二个 df 将从 00:22 到 00:26 开始,依此类推。

谢谢!

最佳答案

假设时间已排序,您可以使用

df['group'] = (df['Time'].diff() > np.timedelta64(60,'s')).cumsum()

向 DataFrame 添加一列,这将根据行所属的组对行进行分类。结果如下所示:

                 Time  Bid  group
0 2014-03-04 00:15:00 73 0
1 2014-03-04 00:16:00 298 0
2 2014-03-04 00:17:00 124 0
3 2014-03-04 00:18:00 318 0
4 2014-03-04 00:19:00 27 0
5 2014-03-04 00:22:00 241 1
6 2014-03-04 00:23:00 97 1
7 2014-03-04 00:24:00 52 1
8 2014-03-04 00:25:00 446 1
9 2014-03-04 00:26:00 867 1

这比拥有多个 DataFrame 更好,因为您可以将快速的 numpy/pandas 操作应用于整个 DataFrame,而如果您有一个 DataFrame 列表,您将被迫使用 Python 循环来单独对子 DataFrame 进行操作(假设您想对每个子DataFrame执行相同的操作)。这样做通常总是比较慢。

通常,对子 DataFrame 进行操作的 pandas 方式是使用 a groupby operation 。例如,

>>> grouped = df.groupby(['group'])
>>> grouped['Bid'].sum()
group
0 840
1 1703
Name: Bid, dtype: int64

查找每组中的出价总和。

但是,如果您确实希望获得子 DataFrame 的列表,则可以使用

subdfs = [subdf for key, subdf in grouped]
<小时/>

对于那些想要重现上述结果的人,我将其放入名为 data 的文件中:

 Time  Bid
2014-03-04 00:15:00 73
2014-03-04 00:16:00 298
2014-03-04 00:17:00 124
2014-03-04 00:18:00 318
2014-03-04 00:19:00 27
2014-03-04 00:22:00 241
2014-03-04 00:23:00 97
2014-03-04 00:24:00 52
2014-03-04 00:25:00 446
2014-03-04 00:26:00 867

然后跑了

import pandas as pd
import numpy as np

df = pd.read_table('data', sep='\s{2,}', parse_dates=[0])

print(df.dtypes)
# Time datetime64[ns] # It is important that Time has dtype datetime64[ns]
# Bid int64
# dtype: object

df['group'] = (df['Time'].diff() > np.timedelta64(60,'s')).cumsum()
print(df)

关于python - pandas 通过时间索引打破数据帧的快速方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22277047/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com