python - 计算时间序列数据中连续天数和缺失天数的总数-6ren

python - 计算时间序列数据中连续天数和缺失天数的总数

转载作者：行者123 更新时间：2023-12-01 02:59:08

25

4

我有一个看起来像这样的数据框(通常它有很多用户):

userid  |  activityday
222        2015-01-09 12:00
222        2015-01-10 12:00
222        2015-01-11 12:00
222        2015-01-13 12:00
222        2015-01-14 12:00
222        2015-01-15 12:00
222        2015-01-17 12:00
222        2015-01-18 12:00
222        2015-01-19 12:00
222        2015-01-20 12:00
222        2015-01-20 12:00

我想获取在给定日期之前连续活跃和不活跃的总天数。例如，如果日期是 2015-01-23 则:

userid | days_active_jb  | days_inactive_jb | ttl_days_active | ttl_days_inactive
222    | 3               | 2                | 10              | 2

或者，如果给定日期是2015-01-15，则:

userid | days_active_jb  | days_inactive_jb | ttl_days_active | ttl_days_inactive
222    | 2               | 0                | 5              | 1

我需要处理大约 300.000 行才能获得最终的数据帧。我想知道实现这一目标的有效方法是什么。有什么想法吗？

以下是每列的说明:

days_active_jb:学生在给定日期之前连续进行事件的天数。

days_inactive_jb:学生在给定日期之前连续没有事件的天数。

ttl_days_active:学生在给定日期之前的任何一天进行事件的天数。

ttl_days_inactive:学生在给定日期之前的任何一天没有事件的天数。

最佳答案

设置:

df
Out[1714]: 
    userid         activityday
0      222 2015-01-09 12:00:00
1      222 2015-01-10 12:00:00
2      222 2015-01-11 12:00:00
3      222 2015-01-13 12:00:00
4      222 2015-01-14 12:00:00
5      222 2015-01-15 12:00:00
6      222 2015-01-17 12:00:00
7      222 2015-01-18 12:00:00
8      222 2015-01-19 12:00:00
9      222 2015-01-20 12:00:00
11     322 2015-01-09 12:00:00
12     322 2015-01-10 12:00:00
13     322 2015-01-11 12:00:00
14     322 2015-01-13 12:00:00
15     322 2015-01-14 12:00:00
16     322 2015-01-15 12:00:00
17     322 2015-01-17 12:00:00
18     322 2015-01-18 12:00:00
19     322 2015-01-19 12:00:00
20     322 2015-01-20 12:00:00

解决方案

def days_active_jb(x):
    x = x[x<pd.to_datetime(cut_off_days)]    
    if len(x) == 0:
        return 0
    x = [e.date() for e in x.sort_values(ascending=False)]
    prev = x.pop(0)
    i = 1    
    for e in x:             
        if (prev-e).days == 1:
            i+=1
            prev = e
        else:
            break
    return i

def days_inactive_jb(x):
    diff = (pd.to_datetime(cut_off_days) -max(x)).days
    return 0 if diff<0 else diff    

def ttl_days_active(x):    
    x = x[x<pd.to_datetime(cut_off_days)]  
    return len(x[x<pd.to_datetime(cut_off_days)])

def ttl_days_inactive(x):    
    #counter the missing days between start and end dates
    x = x[x<pd.to_datetime(cut_off_days)]  
    return len(pd.date_range(min(x),max(x))) - len(x)

#drop duplicate userid-activityday pairs
df = df.drop_duplicates(subset=['userid','activityday'])

cut_off_days = '2015-01-23'
df.sort_values(by=['userid','activityday'],ascending=False).\
              groupby('userid')['activityday'].\
              agg([days_active_jb,
                   days_inactive_jb,
                   ttl_days_active,
                   ttl_days_inactive]).\
              astype(np.int64)

Out[1856]: 
        days_active_jb  days_inactive_jb  ttl_days_active  ttl_days_inactive
userid                                                                      
222                  4                 2               10                  2
322                  4                 2               10                  2


cut_off_days = '2015-01-15'
df.sort_values(by=['userid','activityday'],ascending=False).\
              groupby('userid')['activityday'].\
              agg([days_active_jb,
                   days_inactive_jb,
                   ttl_days_active,
                   ttl_days_inactive]).\
              astype(np.int64)

Out[1863]: 
        days_active_jb  days_inactive_jb  ttl_days_active  ttl_days_inactive
userid                                                                      
222                  2                 0                5                  1
322                  2                 0                5                  1

关于python - 计算时间序列数据中连续天数和缺失天数的总数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43977060/

25

4

0

文章推荐： jsf - 如何在数据表中获取组件的jsf clientid？

文章推荐： jquery - Fancybox 2.1.3 防止 iframe 出现滚动条

mysql - SQL 总数
+--------+-------+----------+-----------+ | Maker | Model | SeatType | NoOfSeats | +--------+------
javascript - jquery 总数
如何使用 jQuery 计算 p 标签之间的字符数？我尝试: DEMO html: 1 1 1 js: var tBytes = 0, tFiles = $('b').length; fo
MongoDB - 聚合框架(总数)
在 MongoDB 上运行正常的“查找”查询时，我可以通过在返回的游标上运行“计数”来获得总结果计数(不考虑限制)。因此，即使我将结果集限制为 10(例如)，我仍然可以知道结果总数为 53(再次，例如
google-sheets - 如何让条形图数据标签在谷歌表格中显示值和百分比(总数)？
在 100% 堆叠条形图中，如何让数据标签同时显示值和总百分比？示例:129 (60.3%) 当您将鼠标悬停在栏上时，它会显示在工具提示中，但在栏本身上不可见。此处示例:https://docs.g
elasticsearch - 与Kibana进行的 session 总数
我在Kibana中的总和有问题。我的用例是，我的每个服务器都会定期报告打开的 session 数。在Kibana中，我想可视化所有服务器上所有 session 的总数。但是，即使只有一台服务器联机且
javascript - 回发后保留计算的 jQuery 总数
我正在使用 jQuery 和 ASP.NET MVC 3 以及 razor View 引擎。我有几个可以在其中输入数值的文本框。我有一个标签控件，其中包含由 jQuery 计算的文本框总数。我有以
PHP/MySQL 总数(按成员)
像这样的结果: 75 Ansari 5 10 88 Koodoo 4 0 90 Koodoo 14 0 83 Koodoo 5 0
c - 如何获取使用的运算符(operator)总数？
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 9 年前。 Improve t
php - 查找事件 session 总数
我是 PHP 的初学者，我正在为我的网站编写一些代码。我想获得当时处于事件状态的 session 总数。我知道这是一项艰巨的任务，但有可能。我该怎么做？我google了一下，有人说可以通过统计tem
mysql - 在正确的记录行显示 COUNT() 总数
1。问题陈述我很难在正确的记录行中显示 COUNT() 的总数。如何将 COUNT() 显示到正确的相应服务 2。背景我想根据stage_id 和分解到project_name 显示员工负责的项
mysql - 使用mysql在一个查询中选择多个表中的 child 总数
我整个下午都在尝试处理一个(或两个或三个)查询，以便获得三个表的所有子表的计数。看看我的设计: 用户表 id_user | name 1 | foo 2 | bar 获奖表 id_won | user
excel - VBA excel计算文件夹(和文件)总数
我有以下脚本。想要文件夹、子文件夹和文件的数量: Sub CountFiles(ByVal path1 As String) Dim fso As Object Dim subfolder As Ob
sum - 饼图标题中的 c3.js 总数
我对 c3.js 中的饼图有疑问。如何在标题中添加饼图的总数？ var title = new Array('data1.sql','data2.sql') var dtitle = new Arr
sql - 使用 CONNECT BY 在分层查询的每个级别获取计数/总数
我在这方面玩得很开心。我正在尝试针对具有递归关系(分层)的表编写查询(使用 Oracle)，并获取存储在树中每个节点及其下方的另一个表中的记录总数。另一个表只有与叶节点相关的记录。但是，我想获得树中每
angularjs - 获取您的应用程序/模块中的绑定(bind)总数
有没有办法获取模块在任何时间点使用的绑定(bind)总数(通过模板的 {{ .. }}/ng-xxx="..." 、 $scope.$watch(...) 等)？最佳答案使用 document.g
javascript - 表页脚中的 Ruby on Rails 总数
我有一个非常简单的表格，因为我现在真的只是在玩 RoR，只是收集一些数据并将其插入数据库，没有什么令人兴奋的只是基本的 CRUD。但是，我想在表格的页脚中放置一个总和字段，但我在网上找不到任何接近的东
mysql - COUNT 组的 mysql 总数
这个 mysql 查询给出了我的产品的销售数量(total 和total_staff)，按一天中的天数和小时数分组。我想要每个产品的 total 和 total_staff 的总和(不按任何内容分组，
python - 尝试计算 View 总数 - 在模板中显示空白
我正在尝试计算 For 循环中每个 user_name 赢得的总金额，并将其显示在 Amount Won: 之后。但是，当我运行下面的代码时，赢得金额后没有任何显示: - 它完全是空白的。我什至尝试将
MYSQL:View 语句产生不正确的 SUM 总数
我有 3 个表。产品价格、开票产品和订购产品的表格。我正在尝试创建一个连接这些的 View 。我想输出产品价格以及开票产品总数和订购产品总数。产品价格 id season_id product
php - 在 while 循环中添加 mysql_num_rows 总数
例如，我在另一个查询的 while 循环内的查询中有一个 mysql_num_rows 结果为 4,8,15,16,23,42。我的问题是如何计算 while 循环中的所有结果？ (共 133 个)谢

首页

博学

6Ren·AI

商城

python - 计算时间序列数据中连续天数和缺失天数的总数