gpt4 book ai didi

r - 按 r 中的连续值分组

转载 作者:行者123 更新时间:2023-12-01 11:18:32 25 4
gpt4 key购买 nike

我有一个来自支持票务系统的数据集,该系统记录了代理在分类和响应客户请求时所做的每次点击。系统为每次点击分配一个新的 hist_id,但代理将点击多个字段,触发表中的几行,他们认为这是一次“交互”。

我的目标是通过对每个组中的第一个和最后一个 modify_time 值进行差异计算来计算每个交互的处理时间。

我目前陷入困境,因为代理将在一天内与案例进行多次交互。

这是一个示例数据框:

hist_id <- c(1234, 2345, 3456, 4567, 5678, 6789, 7890)
case_id <- c(1, 1, 1, 1, 1, 1, 1)
agent_name <- c("John", "John", "John", "Paul", "Paul", "John", "John")
modify_time <- as.POSIXct(c(1510095120, 1510095180, 1510095240, 1510098600, 1510098720, 1510135200, 1510135320), origin = "1970-01-01")
df <- data.frame(hist_id, case_id, agent_name, modify_time)

正如预期的那样,在 case_id 和 agent_name 上使用 group by 对符合条件的所有行进行分组:
df %>% group_by(case_id, agent_name) %>% mutate(first = first(modify_time), last = last(modify_time), diff = min(difftime(last, first)))

这给了我这个:
    # A tibble: 7 x 7
# Groups: case_id, agent_name [2]
hist_id case_id agent_name modify_time first last diff
<dbl> <dbl> <fctr> <dttm> <dttm> <dttm> <time>
1 1234 1 John 2017-11-07 16:52:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
2 2345 1 John 2017-11-07 16:53:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
3 3456 1 John 2017-11-07 16:54:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
4 4567 1 Paul 2017-11-07 17:50:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120 secs
5 5678 1 Paul 2017-11-07 17:52:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120 secs
6 6789 1 John 2017-11-08 04:00:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs
7 7890 1 John 2017-11-08 04:02:00 2017-11-07 16:52:00 2017-11-08 04:02:00 40200 secs

返回 John 的 true first 和 last modify_times 的地方。但是,我需要将 case_id 和 agent_name 的连续匹配分组,以便考虑 Paul 的交互。所以这里记录了三个交互:一个来自约翰,一个来自保罗,第二个来自约翰。

所需的输出将是这样的:
    # A tibble: 7 x 7
# Groups: case_id, agent_name [2]
hist_id case_id agent_name modify_time first last diff
<dbl> <dbl> <fctr> <dttm> <dttm> <dttm> <time>
1 1234 1 John 2017-11-07 16:52:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120 secs
2 2345 1 John 2017-11-07 16:53:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120 secs
3 3456 1 John 2017-11-07 16:54:00 2017-11-07 16:52:00 2017-11-07 16:54:00 120 secs
4 4567 1 Paul 2017-11-07 17:50:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120 secs
5 5678 1 Paul 2017-11-07 17:52:00 2017-11-07 17:50:00 2017-11-07 17:52:00 120 secs
6 6789 1 John 2017-11-08 04:00:00 2017-11-08 04:00:00 2017-11-08 04:02:00 120 secs
7 7890 1 John 2017-11-08 04:02:00 2017-11-08 04:00:00 2017-11-08 04:02:00 120 secs

最佳答案

这是一个 tidyverse 方法,它通过 processing cluster identity 以及 case_idagent_name 对组进行分区:

将所有的点击按顺序排列,每次 hist_id 序列遇到转换到新的 agent_name 时,都会生成一个新的 id 标志。 cumsum 这些标志为每个案例、每个代理、每个集群处理块生成唯一的 prcl_id。有了所有三个 ID,您就可以在所需的分区内运行您选择的突变。

df %>% 
arrange(hist_id) %>% # to ensure there are no wrinkles
mutate(ag_chg_flg = ifelse(lag(agent_name) != agent_name, 1, 0) %>%
coalesce(0) # to reassign the first click in a case_id to 0 (from NA)
) %>%
group_by(case_id, agent_name) %>%
mutate(prcl_id = cumsum(ag_chg_flg) + 1) %>% # generate the proc_clst_id (starting at 1)
group_by(case_id, agent_name, prcl_id) %>% # group by the complete composite id
mutate(first = first(modify_time),
last = last(modify_time),
diff = min(difftime(last, first))
)

这让你:

# A tibble: 7 x 9
# Groups: case_id, agent_name, prcl_id [3]
hist_id case_id agent_name modify_time ag_chg_flg prcl_id first last diff
<dbl> <dbl> <fctr> <dttm> <dbl> <dbl> <dttm> <dttm> <time>
1 1234 1 John 2017-11-07 14:52:00 0 1 2017-11-07 14:52:00 2017-11-07 14:54:00 2 mins
2 2345 1 John 2017-11-07 14:53:00 0 1 2017-11-07 14:52:00 2017-11-07 14:54:00 2 mins
3 3456 1 John 2017-11-07 14:54:00 0 1 2017-11-07 14:52:00 2017-11-07 14:54:00 2 mins
4 4567 1 Paul 2017-11-07 15:50:00 1 2 2017-11-07 15:50:00 2017-11-07 15:52:00 2 mins
5 5678 1 Paul 2017-11-07 15:52:00 0 2 2017-11-07 15:50:00 2017-11-07 15:52:00 2 mins
6 6789 1 John 2017-11-08 02:00:00 1 2 2017-11-08 02:00:00 2017-11-08 02:02:00 2 mins
7 7890 1 John 2017-11-08 02:02:00 0 2 2017-11-08 02:00:00 2017-11-08 02:02:00 2 mins

关于r - 按 r 中的连续值分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47169195/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com