- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
目前我正在写我的硕士论文,但是,我在多个条件下合并行时遇到了一些问题。我在下面说明了我的问题和期望的结果。我希望你能帮助我 :)。
这是我的数据集的示例:
df <- data.frame(
userID = c(1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 3),
sessionID = c(1, 2, 3, 4, 5, 1, 2, 1, 2, 3, 4),
date = as.Date(c("2019-03-15", "2019-03-18", "2019-03-19", "2019-03-21","2019-03-30", "2019-04-05",
"2019-06-06", "2019-11-22", "2019-12-22", "2019-12-24", "2020-01-15"),
format = "%Y-%m-%d"),
purchase=c(0,1,0,0,0,0,0,0,0,1,0))
现在,我已经通过 dplyr 通过 diff 计算了差异:
library(dplyr)
df <- df %>%
group_by(userID) %>%
mutate(diff = date - lag(date))
但是,如果它们之间的差异小于 10 天,我想合并这些行。我希望每次有事件(一个新的 sessionID)时重置 10 天的窗口。此外,当 purchase 为 1 时停止,10 天的窗口将在有新的 sessionID 时重新开始。
我在 dplyr 中尝试了很多关于函数 filter 和 summarize 的事情,但它没有给出想要的结果。此外,我真的不知道如何包括购买条件。
我想要的结果是这样的:
df2 <- data.frame(
userID = c(1, 1, 2, 2, 3, 3, 3),
sessionID = c("1 + 2", "3 + 4 + 5", "1", "2", "1", "2 + 3", "4"),
date.start = as.Date(c("2019-03-15","2019-03-19", "2019-04-05",
"2019-06-06", "2019-11-22", "2019-12-22", "2020-01-15"),
format = "%Y-%m-%d"),
date.end = as.Date(c("2019-03-18", "2019-03-30", "2019-04-05", "2019-06-06",
"2019-11-22", "2019-12-24", "2020-01-15"), format = "%Y-%m-%d"),
purchase=c(1,0,0,0,0,1,0))
我希望你能帮助我:)提前致谢!
最佳答案
按 'userID' 分组,通过对 'purchase' 的 lag
进行累加,根据 'purchase' 中 1 的出现创建一个新组,然后根据差异
相邻“日期”值的差异,即检查差异是否大于或等于 10 天,进行累计和,并通过粘贴 ( str_c
), 获取 'date' 的 first
元素和 'date' 的 last
以及 'purchase' 中 1 的 any
值作为汇总栏
library(dplyr)
library(stringr)
df %>%
group_by(userID) %>%
group_by( grp = cumsum(lag(purchase,
default = first(purchase))), .add = TRUE) %>%
group_by(cat = cumsum(difftime(date,
lag(date, default = first(date)), units = 'day') >= 10), .add = TRUE ) %>%
summarise(sessionID = str_c(sessionID, collapse= ' + '),
date.start = first(date), date.end = last(date),
purchase = +(any(purchase == 1)), .groups = 'drop' ) %>%
select(-grp, -cat)
-输出
# A tibble: 7 x 5
userID sessionID date.start date.end purchase
<dbl> <chr> <date> <date> <int>
1 1 1 + 2 2019-03-15 2019-03-18 1
2 1 3 + 4 + 5 2019-03-19 2019-03-30 0
3 2 1 2019-04-05 2019-04-05 0
4 2 2 2019-06-06 2019-06-06 0
5 3 1 2019-11-22 2019-11-22 0
6 3 2 + 3 2019-12-22 2019-12-24 1
7 3 4 2020-01-15 2020-01-15 0
关于r - 结合基于多个条件的观察,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67909153/
我有一张 Excel 表格,用于更新玩家评分。 播放器 配售 初始化 1 2 3 4 金融评级 一个 1 2.0 1.000 0.018 0.016 0.014 2.007 D 2 -2.0 54.5
我有一个 map = std::map ,其中 myItemModel继承QAbstractItemModel . 我现在要合并所有 myItemModel合一myItemModel (其他所有元素模
我大量使用“do.call”来生成函数调用。例如: myfun <- "rnorm"; myargs <- list(n=10, mean=5); do.call(myfun, myargs); 但是
想象一下 InputStream 的以下变体: trait FutureInputStream { //read bytes asynchronously. Empty array means E
这是我的 C 代码: #include void sum(); int newAlphabet; int main(void) { sum();
我只是想选择类“.last”之后的每个元素。 HTML: 1 2 Jquery
我正在为一个项目构建一个 XML 反序列化器,我经常遇到这种类型的代码情况: var myVariable = ParseNDecimal(xml.Element("myElement")) == n
这是来自 Selecting the highest salary 的继续问题 假设有一个表 'wagetable' name lowhours highhours wage pri
我正在为我的程序创建一个战舰程序;该程序运行良好,但我试图确保当用户将坐标超出范围时,程序会说他们输入的坐标不正确。这是代码: #include #include void
我有一个函数,它为每种情况返回不同的 DWORD 值,如果出现错误。所以我有以下定义: #define ERR_NO_DB_CONNECTION 0x90000 #define ERR_DB_N
在派生类中引发基类事件以下简单示例演示了在基类中声明可从派生类引发的事件的标准方法。此模式广泛应用于 .NET Framework 类库中的 Windows 窗体类。在创建可用作其他类的基类的类时,应
我只是想知道这是否可能: use Modern::Perl; my @list = ('a' .. 'j'); map { func($_) } each(@list); sub func { m
我一直在使用 =IF(L2="","Active",IF(K2I2,"Late"))) 有效,但现在我需要检查 F 上的多个条件 专栏 我试过了 OR 函数 =IF(OR(F2="Scheduled"
我有 2 个命令,如下所示。 在视频中添加介绍图片 ffmpeg -y -loop 1 -framerate 10 -t 3 -i intro.png -i video.mp4 -filter_com
好的,我有这个公式可以根据名字和姓氏列表生成用户名。现在,虽然这可行,但我希望单元格改为引用我自己的 VBA 函数。但是,由于代码少得多,我仍然想使用原始公式。 我有这个公式: =SUBSTITUTE
我有两个 HAProxy 实例。两个实例都启用了统计信息并且工作正常。 我正在尝试将两个实例的统计信息合并为一个,以便我可以使用单个 HAProxy 来查看前端/后端统计信息。我试图让两个 hapro
我有一个 Observable,其中每个新值都应该引起一个 HTTP 请求。在客户端,我只关心最新的响应值;但是,我希望每个请求都能完成以进行监控/等。目的。 我目前拥有的是这样的: function
我的网站上有 TinyMCE 插件。在 TinyMCE 插件的 textarea 中添加图像时,我希望这些图像包含延迟加载。我网站的缩略图具有特定类型的延迟加载,其中 src 图像是灰色背景。根据用户
我希望合并润滑间隔,以便如果它们重叠,则从内部第一个时间获取最小值和从内部最后一个时间获取最大值并总结以创建一个跨越整个时间段的新间隔。这是一个reprex: library(lubridate, w
我有一个应用程序,它本质上是一个页眉、主要内容和一个始终可见的页脚。页脚可以改变大小,我想在页脚上方的主内容面板上放置一些工具。主要布局是用 flex 完成的,我阅读文档的理解是绝对定位通过相对于最近
我是一名优秀的程序员,十分优秀!