gpt4 book ai didi

r - 结合基于多个条件的观察

转载 作者:行者123 更新时间:2023-12-02 16:11:23 33 4
gpt4 key购买 nike

目前我正在写我的硕士论文,但是,我在多个条件下合并行时遇到了一些问题。我在下面说明了我的问题和期望的结果。我希望你能帮助我 :)。

这是我的数据集的示例:

df <- data.frame(
userID = c(1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 3),
sessionID = c(1, 2, 3, 4, 5, 1, 2, 1, 2, 3, 4),
date = as.Date(c("2019-03-15", "2019-03-18", "2019-03-19", "2019-03-21","2019-03-30", "2019-04-05",
"2019-06-06", "2019-11-22", "2019-12-22", "2019-12-24", "2020-01-15"),
format = "%Y-%m-%d"),
purchase=c(0,1,0,0,0,0,0,0,0,1,0))

现在,我已经通过 dplyr 通过 diff 计算了差异:

library(dplyr)
df <- df %>%
group_by(userID) %>%
mutate(diff = date - lag(date))

但是,如果它们之间的差异小于 10 天,我想合并这些行。我希望每次有事件(一个新的 sessionID)时重置 10 天的窗口。此外,当 purchase 为 1 时停止,10 天的窗口将在有新的 sessionID 时重新开始。

我在 dplyr 中尝试了很多关于函数 filter 和 summarize 的事情,但它没有给出想要的结果。此外,我真的不知道如何包括购买条件。

我想要的结果是这样的:

df2 <- data.frame(
userID = c(1, 1, 2, 2, 3, 3, 3),
sessionID = c("1 + 2", "3 + 4 + 5", "1", "2", "1", "2 + 3", "4"),
date.start = as.Date(c("2019-03-15","2019-03-19", "2019-04-05",
"2019-06-06", "2019-11-22", "2019-12-22", "2020-01-15"),
format = "%Y-%m-%d"),
date.end = as.Date(c("2019-03-18", "2019-03-30", "2019-04-05", "2019-06-06",
"2019-11-22", "2019-12-24", "2020-01-15"), format = "%Y-%m-%d"),
purchase=c(1,0,0,0,0,1,0))

我希望你能帮助我:)提前致谢!

最佳答案

按 'userID' 分组,通过对 'purchase' 的 lag 进行累加,根据 'purchase' 中 1 的出现创建一个新组,然后根据差异相邻“日期”值的差异,即检查差异是否大于或等于 10 天,进行累计和,并通过粘贴 ( str_c ), 获取 'date' 的 first 元素和 'date' 的 last 以及 'purchase' 中 1 的 any 值作为汇总栏

library(dplyr)
library(stringr)
df %>%
group_by(userID) %>%
group_by( grp = cumsum(lag(purchase,
default = first(purchase))), .add = TRUE) %>%
group_by(cat = cumsum(difftime(date,
lag(date, default = first(date)), units = 'day') >= 10), .add = TRUE ) %>%
summarise(sessionID = str_c(sessionID, collapse= ' + '),
date.start = first(date), date.end = last(date),
purchase = +(any(purchase == 1)), .groups = 'drop' ) %>%
select(-grp, -cat)

-输出

# A tibble: 7 x 5
userID sessionID date.start date.end purchase
<dbl> <chr> <date> <date> <int>
1 1 1 + 2 2019-03-15 2019-03-18 1
2 1 3 + 4 + 5 2019-03-19 2019-03-30 0
3 2 1 2019-04-05 2019-04-05 0
4 2 2 2019-06-06 2019-06-06 0
5 3 1 2019-11-22 2019-11-22 0
6 3 2 + 3 2019-12-22 2019-12-24 1
7 3 4 2020-01-15 2020-01-15 0

关于r - 结合基于多个条件的观察,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67909153/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com