python - pandas 通过时间索引打破数据帧的快速方法-6ren

python - pandas 通过时间索引打破数据帧的快速方法

转载作者：行者123 更新时间：2023-12-01 05:21:16

25

4

我有一个带有时间索引的数据框。但时间索引不连续。

具有微秒分辨率时间戳索引的 df。

时间出价
2014-03-03 23:30:30.383002 1.37315
2014-03-03 23:30:30.383042 1.37318
2014-03-03 23:30:30.383067 1.37318
2014-03-03 23:30:31.174442 1.37315
2014-03-03 23:30:32.028966 1.37315
2014-03-03 23:30:32.052447 1.37315

我想检查是否有分钟没有任何数据，所以我重新采样

tick_count = e.resample('1Min', how=np.size)

时间出价
2014-03-04 00:15:00 73
2014-03-04 00:16:00 298
2014-03-04 00:17:00 124
2014-03-04 00:18:00 318
2014-03-04 00:19:00 27
2014-03-04 00:20:00 0
2014-03-04 00:21:00 0
2014-03-04 00:22:00 241
2014-03-04 00:23:00 97
2014-03-04 00:24:00 52
2014-03-04 00:25:00 446
2014-03-04 00:26:00 867

所以这里我发现两分钟没有数据，如何将原始的df分成多个df 并且每个人每分钟都有数据。在上面的例子中

第一个 df 将从 00:15 到 00:19 开始，第二个 df 将从 00:22 到 00:26 开始，依此类推。

谢谢!

最佳答案

假设时间已排序，您可以使用

df['group'] = (df['Time'].diff() > np.timedelta64(60,'s')).cumsum()

向 DataFrame 添加一列，这将根据行所属的组对行进行分类。结果如下所示:

                 Time  Bid  group
0 2014-03-04 00:15:00   73      0
1 2014-03-04 00:16:00  298      0
2 2014-03-04 00:17:00  124      0
3 2014-03-04 00:18:00  318      0
4 2014-03-04 00:19:00   27      0
5 2014-03-04 00:22:00  241      1
6 2014-03-04 00:23:00   97      1
7 2014-03-04 00:24:00   52      1
8 2014-03-04 00:25:00  446      1
9 2014-03-04 00:26:00  867      1

这比拥有多个 DataFrame 更好，因为您可以将快速的 numpy/pandas 操作应用于整个 DataFrame，而如果您有一个 DataFrame 列表，您将被迫使用 Python 循环来单独对子 DataFrame 进行操作(假设您想对每个子DataFrame执行相同的操作)。这样做通常总是比较慢。

通常，对子 DataFrame 进行操作的 pandas 方式是使用 a groupby operation 。例如，

>>> grouped = df.groupby(['group'])
>>> grouped['Bid'].sum()
group
0         840
1        1703
Name: Bid, dtype: int64

查找每组中的出价总和。

但是，如果您确实希望获得子 DataFrame 的列表，则可以使用

subdfs = [subdf for key, subdf in grouped]

<小时/>

对于那些想要重现上述结果的人，我将其放入名为 data 的文件中:

 Time  Bid
2014-03-04 00:15:00  73
2014-03-04 00:16:00  298
2014-03-04 00:17:00  124
2014-03-04 00:18:00  318
2014-03-04 00:19:00  27
2014-03-04 00:22:00  241
2014-03-04 00:23:00  97
2014-03-04 00:24:00  52
2014-03-04 00:25:00  446
2014-03-04 00:26:00  867

然后跑了

import pandas as pd
import numpy as np

df = pd.read_table('data', sep='\s{2,}', parse_dates=[0])    

print(df.dtypes)                            
# Time    datetime64[ns]  # It is important that Time has dtype datetime64[ns]
# Bid              int64
# dtype: object

df['group'] = (df['Time'].diff() > np.timedelta64(60,'s')).cumsum()
print(df)

关于python - pandas 通过时间索引打破数据帧的快速方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22277047/

25

4

0

文章推荐： python - 在 python 中对请求执行异常时出错

文章推荐： python - 对多语言国家/地区名称进行排序

文章推荐： javascript正则表达式验证函数

c - 打破 while 循环
这是主函数，其中还调用了 9 个函数。我将向您展示另一个函数，以便您了解我的目标是什么。 int main() { char B[rows][columns]; char answer
javascript - 打破 .preventDefault()
每当我使用 preventDefault() 时，我通常将它放在事件处理程序的顶部，如下所示: $('#foo').on('click', function(e){ e.preventDefaul
c++ - 打破 while 循环重复
我想要实现的是用户输入一个值，然后输入一个测量值。然后将其放置为最小、最大或介于两者之间。保留输入了多少个值的计数。以及以米为单位的所有值的总和。程序最初可以运行，但是当我输入换行符时，程序会重复同
php - 打破 while 循环并获取计数
我无法打破 while 循环。 "; $quizslots = mysql_query("SELECT * FROM quiz_slots WHERE `quizid`=$quizsectio
c++ - 二叉树类创建随机节点，打破
所以我将一个模板化的二叉树字典实现为一个继承自抽象字典类的类，我的添加函数有一个我无法弄清楚的问题。基本上，我的树的节点具有键和值，以及指向其父节点、左子节点和右子节点的指针。节点的代码是 stru
Jquery - 打破/防止每个循环
我的代码应该在内容之间放置一个横幅，但它正在循环播放横幅。我需要它只显示一个横幅。我试过使用 return false;，就像这个例子一样，但它没有用: $(".newsitem_text").con
ios - 打破 UINavigationController
我有一个 Storyboard指定用于登录我的应用程序。我将其嵌入到 UINavigationController 中。登录到我的应用程序(并过渡到新的 Storyboard)后，我想“脱离”这个导航
c - 打破 while 循环并重新启动代码
我想知道是否可以在不使用 MCU 复位引脚上的外部复位按钮的情况下中断 while 循环并从特定位置重新启动代码。下面是当“if”语句为真时我想中断的 while 循环，我正在使用 LCD，并想返回
javascript - 打破 map
所以我有这个问题，如果数组中的值高于输入值，它应该做一些事情然后停止循环并且不要触及数组中的剩余值。这是到目前为止的代码: const percentages = []; let enteredVal
css - 打破 flex 元素中的长词
我想在“div2”中打断长字，div2 和 div3 的宽度都不能大于父宽度(即 150px)。唯一有效的是 word-break: break-all 但这也会打断短词。 #div1{ di
sql - JOIN 打破 WHERE 子查询
我的数据库中有 3 个表。 PARENT_A 有一个“ID”主键列。 PARENT_B 有一个“ID”主键列。 CHILD 具有“PARENT_A_ID”和“PARENT_B_ID”外键列。它还有一个
javascript - 打破 PrototypeJS .each() 循环
在这个非常人为的示例中，我有一个包含 3 个元素的数组，我使用 .each() 对其进行循环。方法。 var vals = $w('foo bar baz'); vals.each( function
r - 打破 R 中的嵌套循环
非常简单的示例代码(仅用于演示，没有任何用处): repeat { while (1 > 0) { for (i in seq(1, 100)) { break # usual
javascript - 打破 promise 和异步等待的链条
我有以下 promise : var aggregatePromise = () => { return new Promise((resolve, reject) => { Ei
javascript - 打破 'enter' 键与表单提交的关联
我想检测表单的“输入”键而不让表单被提交。我如何打破这种关联？ document.forms[0].onkeypress = function (event) { e = window.eve
javascript - 打破 AJAX for 循环
这里是新手。我有一个 Ajax 函数，可以循环 3 个不同的请求。但是，如果第一个请求失败，我希望其他请求终止。我尝试放入“break”语句，但收到“非法的break语句”错误，我猜测是因为它不是直接
for-loop - 打破 Julia 中的循环
我有一个 Vector的 Vector不同长度的 s W .这些最后的向量包含 0 到 150,000 之间的整数，步长为 5，但也可以为空。我正在尝试计算每个向量的经验 cdf。我可以像这样计算这些
javascript - 打破 promise 链的好方法是什么？
我想知道如何正确地打破 JS 中的 promise 链。在这段代码中，我首先连接到数据库，然后检查集合是否已经有一些数据，如果没有则添加它们。不要关注一些 actionhero.js 代码..这里并
for-loop - 打破 Julia 中的循环
我有一个 Vector的 Vector不同长度的 s W .这些最后的向量包含 0 到 150,000 之间的整数，步长为 5，但也可以为空。我正在尝试计算每个向量的经验 cdf。我可以像这样计算这些
java - 打破 CompletableFutures 链
您可以使用 CompletableFuture 链接运行 block ，如下所示: CompletableFuture .supplyAsync(block1) .thenApply(

首页

博学

6Ren·AI

商城

python - pandas 通过时间索引打破数据帧的快速方法