python - 基于 cumsum 和 timediff 创建标志-6ren

python - 基于 cumsum 和 timediff 创建标志

转载作者：太空宇宙更新时间：2023-11-03 14:03:39

25

4

考虑以下数据框，

import pandas as pd
import numpy as np

np.random.seed(666)
dd=pd.DataFrame({'v1': np.random.choice(range(30), 20),
                 'v2': np.random.choice(pd.date_range(
                       '5/3/2016', periods=365, freq='D'),
                     20, replace=False)
                 })
dd=dd.sort_values('v2')

#    v1         v2
#5    4 2016-05-03
#11  14 2016-05-26
#19  12 2016-06-26
#15   8 2016-07-06
#7   27 2016-08-04
#4    9 2016-08-28
#17   5 2016-09-08
#13  16 2016-10-04
#14  14 2016-10-10
#18  18 2016-11-25
#3    6 2016-12-03
#8   19 2016-12-04
#12   1 2016-12-12
#10  28 2017-01-14
#1    2 2017-02-12
#0   12 2017-02-15
#9   28 2017-03-11
#6   29 2017-03-18
#16   7 2017-03-21
#2   13 2017-04-29

我想创建基于以下两个条件的组:

v1 <= 40 的累计总和
或v2 <= 61的时差天

换句话说，每个组的总和必须是 40 v1或2个月的时间。因此，如果 61 天过去了，但 40 天还没有完成，那么无论如何都要关闭该组。如果 40 在 1 天内完成，再次关闭该组

最后的标志是，

dd['expected_flag']=[1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9]

我在 R here 中问过一个非常相似的问题但是现在(日期)有一个新的要求，我无法完全理解它。

注意我将在庞大的数据集中运行它，因此效率越高越好

编辑:我找到了this question它基本上处理第一个条件而不是日期条件

编辑 2:61 天的时差只是为了表示时间限制。实际上，这种限制将在几分钟内完成

编辑 3:使用@Maarten 提供的函数，我得到以下(前 40 行)，其中第 1 组还应包括第 2 组的前 2 个(即 v1=6 和 v1 =6).

Out[330]: 
    index                  v2  v1  max_limit       group
0       2 2017-04-01 00:00:02  14      335.0        1
1       3 2017-04-01 00:00:03   8      335.0        1
2      13 2017-04-01 00:00:13  11      335.0        1
3      14 2017-04-01 00:00:14  11      335.0        1
4      29 2017-04-01 00:00:29   4      335.0        1
5      44 2017-04-01 00:00:44  16      335.0        1
6      52 2017-04-01 00:00:52  10      335.0        1
7      58 2017-04-01 00:00:58  11      335.0        1
8      65 2017-04-01 00:01:05  15      335.0        1
9      68 2017-04-01 00:01:08   8      335.0        1
10     81 2017-04-01 00:01:21  12      335.0        1
11     98 2017-04-01 00:01:38   9      335.0        1
12    102 2017-04-01 00:01:42   7      335.0        1
13    107 2017-04-01 00:01:47  12      335.0        1
14    113 2017-04-01 00:01:53   6      335.0        1
15    116 2017-04-01 00:01:56   6      335.0        1
16    121 2017-04-01 00:02:01   4      335.0        1
17    128 2017-04-01 00:02:08  16      335.0        1
18    143 2017-04-01 00:02:23   7      335.0        1
19    149 2017-04-01 00:02:29  11      335.0        1
20    163 2017-04-01 00:02:43   4      335.0        1
21    185 2017-04-01 00:03:05   9      335.0        1
22    239 2017-04-01 00:03:59   6      335.0        1
23    242 2017-04-01 00:04:02  13      335.0        1
24    272 2017-04-01 00:04:32   4      335.0        1
25    293 2017-04-01 00:04:53   8      335.0        1
26    301 2017-04-01 00:05:01  10      335.0        1
27    302 2017-04-01 00:05:02   7      335.0        1
28    305 2017-04-01 00:05:05  12      335.0        1
29    323 2017-04-01 00:05:23   5      335.0        1
30    326 2017-04-01 00:05:26  13      335.0        1
31    329 2017-04-01 00:05:29  10      335.0        1
32    365 2017-04-01 00:06:05  10      335.0        1
33    368 2017-04-01 00:06:08  11      335.0        1
34    411 2017-04-01 00:06:51   6      335.0        2
35    439 2017-04-01 00:07:19   6      335.0        2
36    440 2017-04-01 00:07:20   8      335.0        2
37    466 2017-04-01 00:07:46   7      335.0        2
38    475 2017-04-01 00:07:55   4      335.0        2
39    489 2017-04-01 00:08:09   4      335.0        2

所以为了清楚起见，当我求和并计算我得到的时间差时，

dd.groupby('group', as_index=False).agg({'v1': 'sum', 'v2': lambda x: max(x)-min(x)})
Out[332]: 
#      group   v1       v2
#0         1  320 00:06:06
#1         2  326 00:07:34
#2         3  330 00:06:53
#...

最佳答案

设置:

dd['days'] = dd['v2'].diff().dt.days.fillna(0).astype(int)
dd = dd[['v1', 'v2', 'days']]  # the order of the columns matters

初始化:

increment = pd.Series(False, index=dd.index)
v1_cum = 0
days_cum = 0

循环:

for row in dd.itertuples(name=None):  # faster than iterrows
    v1_cum += row[1]
    days_cum += row[3]
    if v1_cum > 40 or days_cum > 61:
        increment[row[0]] = True  # first element of tuple is index
        # notice the different re-initialization
        v1_cum = row[1]
        days_cum = 0

分配:

dd['flag'] = increment.cumsum() + 1

输出:

[1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9]

关于python - 基于 cumsum 和 timediff 创建标志，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46096801/

25

4

0

文章推荐： python - 使用 Scapy 模块 (python) 从 pcap 文件获取特定包

文章推荐： wordpress 网站有多个重定向

文章推荐： c# - 如何与框架page.xaml通信

文章推荐： python - 通过 Python 脚本不受信任的 SVN SSL 证书

mySQL timediff 错误结果
我想了解为什么这个查询给我一个错误的答案: 此查询会将其格式化为时间，然后在 time_format 内我创建了一个 timediff在 2 个日期之间，我只有小时数。 SELECT time_fo
php - 以设定格式显示 TIMEDIFF
$arr = explode(':', $row['diff']); echo "$arr[0] minutes, $arr[1] seconds"; 数组正在输出:Array00 小时，20 分钟，
mysql timediff where 条件
我必须在mysql的时间差异中使用一个条件。我必须修改以下查询:- select bugs_team_user_view.bug_id, bugs_team_user_view.creation_
mysql - 通过跳过某些时间来计算 timediff
投诉创建日期:2014-09-16T18:41:42.000Z 投诉截止日期:2014-09-17T10:41:42.000Z 如果投诉在创建日期后的第二天关闭，它将跳过(晚上 7 点至上午 10 点
MySQL TIMEDIFF() 返回两个时间之间的差值和时间总和
我的查询是我想用 timediff 函数找到总和任何帮助 SELECT TIMEDIFF( timefrom, timeto ) FROM `leaveapply` WHERE userid = '2
mysql - 根据选择选择最后一个不同值和 TIMEDIFF？
我正在尝试设置一个查询，根据一列中最后一个唯一值出现的时间，在两次之间执行DATEDIFF。数据结构如下: row ticket_id create_time change_ti
mysql - timediff() 的性能问题
所以我在涉及 timediff 函数的查询中遇到了性能问题。对于 session 表(PK)中的每个 id 寄存器，study_behaviour 表中都有多个寄存器(idsession 是来自 S
php - TIMEDIFF 函数不起作用
Query Ouput 从输出中，您可以看到我可以选择MIN(TIME(Time))，但是当我在TIMEDIFF FUNCTION中使用它时，它会读取 MIN(TIME(Time)) 为 0，我得到的
MySQL timediff — 这是一个错误吗？
这必须返回 1440 分钟并且工作正常: select abs(round((TIME_TO_SEC(TIMEDIFF('2013-03-13 10:00',
MySQL timediff 返回意外结果
请考虑以下查询: SELECT submitted_time FROM jobs WHERE timediff(NOW(), submitted_time) DATE_ADD(NOW(), INTE
单个表的行中时间戳之间的 mySql TimeDiff
我的商店中有 500 个信息亭，并且有一个表可以通过商店 ID 跟踪每个打印件的时间戳。我需要生成一个记录集，以秒为单位给出打印之间的时间。所有这些数据都存储在一个表中。每次打印都会插入一条记录，其中
mysql - 如何在没有子查询的情况下获取每行日期字段与最近的前一个日期行的 TIMEDIFF？
我需要计算一行与字段 dateCompleted 是该行之前最后一个字段的行之间的 TIMEDIFF，然后获取值 timeSinceLast。我可以通过子查询轻松完成此操作，但速度非常慢。 (比直接
MySQL TimeDiff 排除周末
我一直在 MySQL 表上使用 TimeDiff 来获取 2 个字段之间的差异，这两个字段均采用 DateTime 格式。这是我正在使用的查询，它也将持续时间限制为仅今年。 SELECT userna
MySQL TIMEDIFF 负值
我在使用具有两个不同日期的 TIMEDIFF 时遇到问题。以下查询“应该”返回00:04:51 mysql> SELECT TIMEDIFF(TIME('2013-07-21 00:04:50'),T
多行的MySQL AVG TimeDiff
我有一个查询，需要它从两个单独的表中选择两个不同时间的平均时差。在查询的下一部分出现之前，这似乎很容易:我必须按学生进入办公室的原因进行分组。所以现在这个查询需要: 选择原因(why) 计算一个学生
mysql - 查询中产生的多次求和 (timediff)
我有两个字段: 初始(时间戳) 最终(时间戳) 我的查询是: SELECT TIMEDIFF(Final, Initial) AS 'Worked Hours' FROM `db_fo
mysql - timediff 的意外结果
timediff 函数没有按预期工作。在以下示例中，我尝试计算 1 年期间的秒数差异。 mysql>SELECT 366*24*60*60 AS expected; +----------+ | ex
MYSQL TIMEDIFF 函数不适用于长日期
Mysql Timediff 函数不适用于我的长日期。实际上我需要获取 date_time 字段与 now() 之间的时差所以我用了这个查询 SELECT `date_time`,now(),tim
mysql - 使用 timediff 减去时间
帮助。我在mysql中有这个查询。它的作用是组合三个表中的字段。其中一个字段(持续时间 (h))减去结束时间和开始时间。 5月时间数据仅采用时间形式，而不是日期时间。所以我决定使用timediff函数
MySQL SUM 大 TIMEDIFF
我有一个 SQL 表事件，其中包含两个名为started_at、ended_at 的字段，每个字段都是一个日期时间列和一个plane_id 字段。我们将间隔“end_at -start_at”称为持

首页

博学

6Ren·AI

商城

python - 基于 cumsum 和 timediff 创建标志