- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个看起来像这样的数据框(通常它有很多用户):
userid | activityday
222 2015-01-09 12:00
222 2015-01-10 12:00
222 2015-01-11 12:00
222 2015-01-13 12:00
222 2015-01-14 12:00
222 2015-01-15 12:00
222 2015-01-17 12:00
222 2015-01-18 12:00
222 2015-01-19 12:00
222 2015-01-20 12:00
222 2015-01-20 12:00
我想获取在给定日期之前连续活跃和不活跃的总天数。例如,如果日期是 2015-01-23 则:
userid | days_active_jb | days_inactive_jb | ttl_days_active | ttl_days_inactive
222 | 3 | 2 | 10 | 2
或者,如果给定日期是2015-01-15,则:
userid | days_active_jb | days_inactive_jb | ttl_days_active | ttl_days_inactive
222 | 2 | 0 | 5 | 1
我需要处理大约 300.000 行才能获得最终的数据帧。我想知道实现这一目标的有效方法是什么。有什么想法吗?
以下是每列的说明:
days_active_jb
:学生在给定日期之前连续进行事件的天数。
days_inactive_jb
:学生在给定日期之前连续没有事件的天数。
ttl_days_active
:学生在给定日期之前的任何一天进行事件的天数。
ttl_days_inactive
:学生在给定日期之前的任何一天没有事件的天数。
最佳答案
设置:
df
Out[1714]:
userid activityday
0 222 2015-01-09 12:00:00
1 222 2015-01-10 12:00:00
2 222 2015-01-11 12:00:00
3 222 2015-01-13 12:00:00
4 222 2015-01-14 12:00:00
5 222 2015-01-15 12:00:00
6 222 2015-01-17 12:00:00
7 222 2015-01-18 12:00:00
8 222 2015-01-19 12:00:00
9 222 2015-01-20 12:00:00
11 322 2015-01-09 12:00:00
12 322 2015-01-10 12:00:00
13 322 2015-01-11 12:00:00
14 322 2015-01-13 12:00:00
15 322 2015-01-14 12:00:00
16 322 2015-01-15 12:00:00
17 322 2015-01-17 12:00:00
18 322 2015-01-18 12:00:00
19 322 2015-01-19 12:00:00
20 322 2015-01-20 12:00:00
解决方案
def days_active_jb(x):
x = x[x<pd.to_datetime(cut_off_days)]
if len(x) == 0:
return 0
x = [e.date() for e in x.sort_values(ascending=False)]
prev = x.pop(0)
i = 1
for e in x:
if (prev-e).days == 1:
i+=1
prev = e
else:
break
return i
def days_inactive_jb(x):
diff = (pd.to_datetime(cut_off_days) -max(x)).days
return 0 if diff<0 else diff
def ttl_days_active(x):
x = x[x<pd.to_datetime(cut_off_days)]
return len(x[x<pd.to_datetime(cut_off_days)])
def ttl_days_inactive(x):
#counter the missing days between start and end dates
x = x[x<pd.to_datetime(cut_off_days)]
return len(pd.date_range(min(x),max(x))) - len(x)
#drop duplicate userid-activityday pairs
df = df.drop_duplicates(subset=['userid','activityday'])
cut_off_days = '2015-01-23'
df.sort_values(by=['userid','activityday'],ascending=False).\
groupby('userid')['activityday'].\
agg([days_active_jb,
days_inactive_jb,
ttl_days_active,
ttl_days_inactive]).\
astype(np.int64)
Out[1856]:
days_active_jb days_inactive_jb ttl_days_active ttl_days_inactive
userid
222 4 2 10 2
322 4 2 10 2
cut_off_days = '2015-01-15'
df.sort_values(by=['userid','activityday'],ascending=False).\
groupby('userid')['activityday'].\
agg([days_active_jb,
days_inactive_jb,
ttl_days_active,
ttl_days_inactive]).\
astype(np.int64)
Out[1863]:
days_active_jb days_inactive_jb ttl_days_active ttl_days_inactive
userid
222 2 0 5 1
322 2 0 5 1
关于python - 计算时间序列数据中连续天数和缺失天数的总数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43977060/
+--------+-------+----------+-----------+ | Maker | Model | SeatType | NoOfSeats | +--------+------
如何使用 jQuery 计算 p 标签之间的字符数? 我尝试: DEMO html: 1 1 1 js: var tBytes = 0, tFiles = $('b').length; fo
在 MongoDB 上运行正常的“查找”查询时,我可以通过在返回的游标上运行“计数”来获得总结果计数(不考虑限制)。因此,即使我将结果集限制为 10(例如),我仍然可以知道结果总数为 53(再次,例如
在 100% 堆叠条形图中,如何让数据标签同时显示值和总百分比?示例:129 (60.3%) 当您将鼠标悬停在栏上时,它会显示在工具提示中,但在栏本身上不可见。 此处示例:https://docs.g
我在Kibana中的总和有问题。 我的用例是,我的每个服务器都会定期报告打开的 session 数。在Kibana中,我想可视化所有服务器上所有 session 的总数。但是,即使只有一台服务器联机且
我正在使用 jQuery 和 ASP.NET MVC 3 以及 razor View 引擎。 我有几个可以在其中输入数值的文本框。我有一个标签控件,其中包含由 jQuery 计算的文本框总数。 我有以
像这样的结果: 75 Ansari 5 10 88 Koodoo 4 0 90 Koodoo 14 0 83 Koodoo 5 0
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 9 年前。 Improve t
我是 PHP 的初学者,我正在为我的网站编写一些代码。我想获得当时处于事件状态的 session 总数。我知道这是一项艰巨的任务,但有可能。我该怎么做? 我google了一下,有人说可以通过统计tem
1。问题陈述 我很难在正确的记录行中显示 COUNT() 的总数。 如何将 COUNT() 显示到正确的相应服务 2。背景 我想根据stage_id 和分解到project_name 显示员工负责的项
我整个下午都在尝试处理一个(或两个或三个)查询,以便获得三个表的所有子表的计数。看看我的设计: 用户表 id_user | name 1 | foo 2 | bar 获奖表 id_won | user
我有以下脚本。想要文件夹、子文件夹和文件的数量: Sub CountFiles(ByVal path1 As String) Dim fso As Object Dim subfolder As Ob
我对 c3.js 中的饼图有疑问。 如何在标题中添加饼图的总数? var title = new Array('data1.sql','data2.sql') var dtitle = new Arr
我在这方面玩得很开心。我正在尝试针对具有递归关系(分层)的表编写查询(使用 Oracle),并获取存储在树中每个节点及其下方的另一个表中的记录总数。另一个表只有与叶节点相关的记录。但是,我想获得树中每
有没有办法获取模块在任何时间点使用的绑定(bind)总数(通过模板的 {{ .. }}/ng-xxx="..." 、 $scope.$watch(...) 等)? 最佳答案 使用 document.g
我有一个非常简单的表格,因为我现在真的只是在玩 RoR,只是收集一些数据并将其插入数据库,没有什么令人兴奋的只是基本的 CRUD。但是,我想在表格的页脚中放置一个总和字段,但我在网上找不到任何接近的东
这个 mysql 查询给出了我的产品的销售数量(total 和total_staff),按一天中的天数和小时数分组。我想要每个产品的 total 和 total_staff 的总和(不按任何内容分组,
我正在尝试计算 For 循环中每个 user_name 赢得的总金额,并将其显示在 Amount Won: 之后。但是,当我运行下面的代码时,赢得金额后没有任何显示: - 它完全是空白的。我什至尝试将
我有 3 个表。产品价格、开票产品和订购产品的表格。我正在尝试创建一个连接这些的 View 。我想输出产品价格以及开票产品总数和订购产品总数。 产品价格 id season_id product
例如,我在另一个查询的 while 循环内的查询中有一个 mysql_num_rows 结果为 4,8,15,16,23,42。我的问题是如何计算 while 循环中的所有结果? (共 133 个)谢
我是一名优秀的程序员,十分优秀!