gpt4 book ai didi

r - 按组查找运行最大值

转载 作者:行者123 更新时间:2023-12-01 08:26:19 25 4
gpt4 key购买 nike

我需要使用 R 按组查找变量的运行最大值。使用 df[order(df$group, df$time),] 按组内的时间对变量进行排序.

我的变量有一些 NA,但我可以通过在此计算中用零替换它们来处理它。

这是数据框 df 的样子:

(df <- structure(list(var = c(5L, 2L, 3L, 4L, 0L, 3L, 6L, 4L, 8L, 4L),
group = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L),
.Label = c("a", "b"), class = "factor"),
time = c(1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L)),
.Names = c("var", "group","time"),
class = "data.frame", row.names = c(NA, -10L)))

# var group time
# 1 5 a 1
# 2 2 a 2
# 3 3 a 3
# 4 4 a 4
# 5 0 a 5
# 6 3 b 1
# 7 6 b 2
# 8 4 b 3
# 9 8 b 4
# 10 4 b 5

我想要一个变量 curMax 为:
var  |  group  |  time  |  curMax
5 a 1 5
2 a 2 5
3 a 3 5
4 a 4 5
0 a 5 5
3 b 1 3
6 b 2 6
4 b 3 6
8 b 4 8
4 b 5 8

如果您知道如何在 R 中实现它,请告诉我。

最佳答案

我们可以试试data.table .将 'data.frame' 转换为 'data.table' ( setDT(df1) ),按 'group' 分组,我们得到 cummax 'var' 并将其分配 ( := ) 给一个新变量 ('curMax')

library(data.table)
setDT(df1)[, curMax := cummax(var), by = group]

正如@Michael Chirico 所评论的,如果数据不是 order由“时间”编辑,我们可以在“我”中做到这一点
setDT(df1)[order(time), curMax:=cummax(var), by = group]

或与 dplyr
library(dplyr)
df1 %>%
group_by(group) %>%
mutate(curMax = cummax(var))

df1tbl_sql可能需要显式排序,使用 arrange
df1 %>% 
group_by(group) %>%
arrange(time, .by_group=TRUE) %>%
mutate(curMax = cummax(var))

dbplyr::window_order
library(dbplyr)

df1 %>%
group_by(group) %>%
window_order(time) %>%
mutate(curMax = cummax(var))

关于r - 按组查找运行最大值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34069496/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com