gpt4 book ai didi

r - 如何根据特定于该组的另一个变量为一组观察创建新变量

转载 作者:行者123 更新时间:2023-12-02 09:06:30 25 4
gpt4 key购买 nike

我正在尝试添加一个新变量,该变量基于对数据集中组内某个因素水平的观察。我一直在尝试利用各种 dplyr 函数(filterselectmutategroup_by),但不能'不知道如何让他们一起工作并实现我的目标。

这是我的数据示例:

  rep   rate       n  mort   avg
<fct> <fct> <int> <dbl> <dbl>
1 1 0.747 10 7 0.7
2 1 0.373 10 7 0.7
3 1 0.187 10 6 0.6
4 1 0.0933 10 0 0
5 1 0.00 10 1 0.1
6 2 0.747 10 7 0.7
7 2 0.373 10 5 0.5
8 2 0.187 10 1 0.1
9 2 0.0933 10 4 0.4
10 2 0.00 10 0 0

我希望完成的是创建一个名为 cont 的新变量,当 rate == "0.00"< 时,该变量是从 avg 变量派生的。对于同一 rep 组中的每个观察,该变量都是相同的。最终产品将是类似于下面的表格:

  rep   rate       n  mort   avg  cont
<fct> <fct> <int> <dbl> <dbl> <dbl>
1 1 0.747 10 7 0.7 0.1
2 1 0.373 10 7 0.7 0.1
3 1 0.187 10 6 0.6 0.1
4 1 0.0933 10 0 0 0.1
5 1 0.00 10 1 0.1 0.1
6 2 0.747 10 7 0.7 0
7 2 0.373 10 5 0.5 0
8 2 0.187 10 1 0.1 0
9 2 0.0933 10 4 0.4 0
10 2 0.00 10 0 0 0

我尝试了以下代码: data %>% group_by(rep) %>% filter(rate ==0.00") %>% select(avg) ,结果是一个数据帧我确实想要添加为新变量的数据:

  rep     avg
<fct> <dbl>
1 1 0.1
2 2 0
3 3 0.1
4 4 0.3
5 5 0
6 6 0
7 7 0
8 8 0

我现在的问题是,我不知道如何为 rep 组中的每个观察创建新变量。我不确定在这种情况下如何正确使用 mutate 。预先感谢您的帮助!

最佳答案

假设每组中只出现一次 rate == "0.00",我们可以这样做

library(dplyr)
df %>%
group_by(rep) %>%
mutate(cont = avg[rate == "0.00"])

# rep rate n mort avg cont
# <fct> <fct> <int> <dbl> <dbl> <dbl>
# 1 1 0.747 10 7 0.7 0.1
# 2 1 0.373 10 7 0.7 0.1
# 3 1 0.187 10 6 0.6 0.1
# 4 1 0.0933 10 0 0 0.1
# 5 1 0.00 10 1 0.1 0.1
# 6 2 0.747 10 7 0.7 0
# 7 2 0.373 10 5 0.5 0
# 8 2 0.187 10 1 0.1 0
# 9 2 0.0933 10 4 0.4 0
#10 2 0.00 10 0 0 0

如果出现多个,我们可以使用which.max来选择第一个

df %>% group_by(rep) %>% mutate(cont = avg[which.max(rate == "0.00")])

使用data.table,我们可以做到

library(data.table)
setDT(df)[, cont := avg[rate == "0.00"], by = rep]

数据

df <- structure(list(rep = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 
2L, 2L, 2L), .Label = c("1", "2"), class = "factor"), rate = structure(c(5L,
4L, 3L, 2L, 1L, 5L, 4L, 3L, 2L, 1L), .Label = c("0.00", "0.0933",
"0.187", "0.373", "0.747"), class = "factor"), n = c(10L, 10L,
10L, 10L, 10L, 10L, 10L, 10L, 10L, 10L), mort = c(7, 7, 6, 0,
1, 7, 5, 1, 4, 0), avg = c(0.7, 0.7, 0.6, 0, 0.1, 0.7, 0.5, 0.1,
0.4, 0)), row.names = c("1", "2", "3", "4", "5", "6", "7", "8",
"9", "10"), class = "data.frame")

关于r - 如何根据特定于该组的另一个变量为一组观察创建新变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57666778/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com