- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个看起来像这样的 df:
visits ={'someID':[111,111,111,222,222,222,333,333],
'Month':[1,3,5,1,2,4,3,4],
'visits':[4,10,5,2,2,2,5,5]}
df = pd.DataFrame.from_dict(visits)
someID Month Visits
111 1 4
111 3 10
111 5 5
222 1 2
222 2 2
222 4 2
333 3 5
333 4 5
数据框应解释为:
用户 111 在第 1 个月访问但在第 2 个月流失并在第 3 个月返回,在第 4 个月流失并在第 5 个月返回。用户 222 在第 1 个月和第 2 个月访问过,在第 3 个月流失并在第 4 个月返回用户 333 在第 3 个月首次访问(他不应在第 1 个月和第 2 个月显示为流失)。
汇总每月流失次数和每月新访问次数的有效方法是什么?churn = 之前访问过但当月没有访问过新访问 = 第一次访问
期望的输出:(
Month Churns New_visits Totals
2 1 0 1
3 1 1 2
4 1 0 2
5 2 0 1
最佳答案
此解决方案是 hackish 且未优化,但它可能足够快地满足您的目的。
首先,使用 pivot_table
计算每个用户 ID 每月的出现情况:
df2 = df.pivot_table(columns='someID',
index='Month',
values='visits',
aggfunc='count')
# df2:
# someID 111 222 333
# Month
# 1 1.0 1.0 NaN
# 2 NaN 1.0 NaN
# 3 1.0 NaN 1.0
# 4 NaN 1.0 1.0
# 5 1.0 NaN NaN
创建一个由月份编号索引的空 DataFrame,准备接收整数计数:
result = pd.DataFrame(data=np.zeros(df2.shape[0]),
index=df2.index,
columns=['New_visits'],
dtype=np.int16)
在第一个数据透视表 DataFrame 中,用非 NaN 标记值标记每个用户首次访问之前的每个月,例如 -1。使用每个用户的first_valid_index
来统计每个月的新访问者数量:
for col in df2:
fvi = df2[col].first_valid_index()
df2.loc[df2[col].index < fvi, col] = -1
result.loc[fvi, 'New_visits'] += 1
# df2
# someID 111 222 333
# Month
# 1 1.0 1.0 -1.0
# 2 NaN 1.0 -1.0
# 3 1.0 NaN 1.0
# 4 NaN 1.0 1.0
# 5 1.0 NaN NaN
对于每一行,将每个 NaN 计为流失,将每个正值计为访客:
result['Churns'] = df2.isnull().sum(axis=1)
result['Totals'] = df2.gt(0).sum(axis=1)
# result
# New_visits Churns Totals
# Month
# 1 2 0 2
# 2 0 1 1
# 3 1 1 2
# 4 0 1 2
# 5 0 2 1
关于python - 标记和总结访问日志中每月的差距(流失),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46893307/
1、定义 设 \(u\) 和 \(v\) 为一张图上的任意两个节点。令 \(c(u, v)\) 为它们之间的边的容量, \(f(u, v)\) 为它们之间的流量,则需要满足以
1、前言 工作中涉及到文件系统,有时候需要判断文件和目录是否存在。我结合apue第四章文件和目录,总结一下如何正确判断文件和目录是否存在,方便以后查询。 2、stat系列函数 stat函数用来
并查集(Union-Find Set): 一种用于管理分组的数据结构。它具备两个操作:(1)查询元素a和元素b是否为同一组 (2) 将元素a和b合并为同一组。 注意:并查集不能将在同一组的元素拆
当下,注解非常流行,以前很长篇的代码,现在基本上一个注解就能搞定。 那,在Mybatis中又有哪些注解呢? Mybatis中的注解基本上都在org.apache.ibatis.annotat
指针操作数组,方法一是p+index,方法二是p[index],第二种方法跟数组访问方法是一样的。 数组引用返回的是数组的第一个元素的指针地址。 可以将指针指向数组的任意元素,然后从那里开始访问
通常部署完php环境后会进行一些安全设置,除了熟悉各种php漏洞外,还可以通过配置php.ini来加固PHP的运行环境,PHP官方也曾经多次修改php.ini的默认设置。 下面对php.ini中一
在JavaScript中,使用typeof可以检测基本数据类型,使用instanceof可以检测引用数据类型。在PHP中,也有检测数据类型的方法,具体如下: 1、输出变量的数据类型(gettype
把图片缓存到本地,在很多场景都会用到,如果只是存储文件信息,那建一个plist文件,或者数据库就能很方便的解决问题,但是如果存储图片到沙盒就没那么方便了。这里简单介绍两种保存图片到沙盒的方法。
(1)需要安装docker容器,在docker容器内安装jenkins,gogs,tomcat。 新建maven项目,添加findbugs plugin。 使用docker
今天主题是实现并发服务器,实现方法有多种版本,先从简单的单进程代码实现到多进程,多线程的实现,最终引入一些高级模块来实现并发TCP服务器。 说到TCP,想起吐槽大会有个段子提到三次握手,也只有程序
如下所示: Ctrl+1或F2快速修复 Ctrl+D快捷删除行 Shift+Enter 快速切换到下一行,在本行的任何位置都可 Ctrl+F11快速运行代码 Alt+上下键 快速移动行(可
JSP是Servlet技术的扩展,本质上是Servlet的简易方式,更强调应用的外表表达。 JSP编译后是”类servlet”。 Servlet和JSP最主要的不同点在于,Servlet的应用逻辑
Java中的Runable,Callable,Future,FutureTask,ExecutorService,Excetor,Excutors,ThreadPoolExcetor在这里对这些关键
读取Java文件到byte数组的三种方法(总结) ? 1
用java实现的数组创建二叉树以及递归先序遍历,递归中序遍历,递归后序遍历,非递归前序遍历,非递归中序遍历,非递归后序遍历,深度优先遍历,广度优先遍历8种遍历方式:
1、简明总结 ASCII(char) 返回字符的ASCII码值 BIT_LENGTH(str) 返回字符串的比特长度 CONCAT(s1,s2…,sn)
java应用服务器(web server),是指运行java程序的web应用服务器软件,不包括nginx、Apache等通用web服务器软件。 一、Tomcat Tomcat是Apache 软件基
事务作为抽象层,允许应用忽略DB 内部一些复杂并发问题和某些硬件、软件故障,简化应用层的处理逻辑:事务中止(transaction abort),而应用仅需重试。对复杂访问模式,事务可大大减少需要考虑
我们在本教程学习了如何描述 XML 文档的结构 我们学习到了如何使用 DTD 来定义一个 XML 文档的合法元素,以及如何在我们的 XML 内部或者作为一个外部引用来声明 DTD 我们学习了如何为
在这个XPath 基础教程中我们讲解了如何在 XML 文档中查找信息 我们可以使用 XPath 的元素和属性在 XML 文档中进行导航 我们也学习了如何使用 XPath 中内建的某些标准函数 如
我是一名优秀的程序员,十分优秀!