gpt4 book ai didi

r - 使用 group_by() 后,按时间范围窗口为数据框中的每一行子集数据

转载 作者:行者123 更新时间:2023-12-05 02:44:03 31 4
gpt4 key购买 nike

我有包含三列的时间序列数据:一个值列、一个 group_var 列(用于分组)和一个日期列。对于数据框中的每一行,我想在按特定时间范围进一步子集化后得到该行组的平均值。下面是子集代码示例:

df$value[df$date >= (current_row$date - 545) & df$date <= (current_row$date - 365)]

在我得到这个子集后,我可以很容易地应用 mean(),但我卡住的地方是我如何让这段代码与这样的东西一起工作:

df %>%
group_by(group_var) %>%
mutate(subset_mean = mean(df$value[df$date >= (current_row$date - 545) & df$date <= (current_row$date - 365)])
)

我看到的问题是,我认为在对原始“df”进行分组后,我不能在 mutate() 行内使用“df”。此外,我不确定如何创建“current_row”变量来引用当前行来计算数据子集。

编辑:添加了示例数据和可重现的代码

library(dplyr)
date <- c("2016-02-03", "2016-06-14", "2016-03-15", "2017-04-16","2016-01-27", "2016-01-13", "2017-04-24", "2017-06-15")
date <- date %>% as.Date(format = "%Y-%m-%d")
val <- c(10, 20, 50, 70, 30, 44, 67, 42)
group_var <- c("A", "B", "B", "A", "B", "A", "A", "B")

df <- data.frame(date, val, group_var)

df %>%
group_by(group_var)

最佳答案

我建议为此使用 slider::slide_index_dbl:

library(dplyr)
df %>%
group_by(group_var) %>%
arrange(group_var, date) %>% # slider 0.1.5 requires the window variable to be ascending
mutate(subset_mean = slider::slide_index_dbl(
val, date, mean, .before = 545, .after = -365
# negative ".after" means the window ends before the current date
)) %>%
ungroup()

有了更新后的数据,我得到了

#date <- c("2016-02-03", "2016-06-14", "2016-03-15", "2017-04-16","2016-01-27", "2016-01-13", "2017-04-24", "2017-06-15")


# A tibble: 8 x 4
date val group_var subset_mean
<date> <dbl> <chr> <dbl>
1 2016-01-13 44 A NaN
2 2016-02-03 10 A NaN
3 2017-04-16 70 A 27
4 2017-04-24 67 A 27
5 2016-01-27 30 B NaN
6 2016-03-15 50 B NaN
7 2016-06-14 20 B NaN
8 2017-06-15 42 B 33.3

关于r - 使用 group_by() 后,按时间范围窗口为数据框中的每一行子集数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66605522/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com