gpt4 book ai didi

r - 当多个变量的条件相同时简化 case_when()

转载 作者:行者123 更新时间:2023-12-05 01:22:20 26 4
gpt4 key购买 nike

假设我想根据多个其他变量中的条件创建一个新变量,并且每个变量的条件都相同。我知道我可以使用 case_when(),但我很想知道如果我的条件短语对于每个条件变量都相同,是否可以简化这一步。我还想知道这是否可以轻松复制以创建多个变量。

示例:一位教师有 3 名学生,他们已获得 3 次测试和 3 次测验的成绩。他想创建一个变量来说明学生在任何测试或测验中的分数是否低于 70。所以他将创建两个新变量:


ID <- c("Dave", "Joe", "Steve")
exam1 <- c(80, 100, 90)
exam2 <- c(30, 90, 88)
exam3 <- c(90, 65, 95)
quiz1 <- c(90, 90, 20)
quiz2 <- c(33, 100, 100)
quiz3 <- c(90, 90, 50)

data <- tibble(ID, exam1, exam2, exam3, quiz1, quiz2, quiz3)

data <- data %>%
mutate(
fail_exam = case_when(
exam1 < 70 ~ 1,
exam2 < 70 ~ 1,
exam3 < 70 ~ 1,
T ~ 0
),
fail_quiz = case_when(
quiz1 < 70 ~ 1,
quiz2 < 70 ~ 1,
quiz3 < 70 ~ 1,
T ~ 0
)
)

他最终得到了以下带有两个新变量的输出:

# A tibble: 3 × 9
ID exam1 exam2 exam3 quiz1 quiz2 quiz3 fail_exam fail_quiz
<chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 Dave 80 30 90 90 33 90 1 1
2 Joe 100 90 65 90 100 90 1 0
3 Steve 90 88 95 20 100 50 0 1

现在为了这个例子,假设您有 100 个考试类别(例如,期中考试、期末考试、家庭作业等),学生获得了这些类别的成绩,并且您想为每个考试类别创建一个新变量表明他们是否曾经有过不及格的分数。可以像我上面使用 case_when() 对考试和测验所做的那样迭代检查每个考试类别,但我想知道是否有更简单的方法将单个条件(即,如果数字分数 <70)应用于考试类别列表(例如:c(“exam”,“quiz”,“homework”,“midterm”)遵循我上面的编号约定,以便为创建唯一的输出变量,例如“fail_exam”和“fail_quiz”每一个。

这不是关键任务,而是希望稍微简化一下。

谢谢,C

最佳答案

您可以使用 dplyr::if_any() 针对谓词函数测试多个变量:

library(dplyr)

data %>%
mutate(
fail_exam = as.numeric(if_any(exam1:exam3, ~ .x < 70)),
fail_quiz = as.numeric(if_any(quiz1:quiz3, ~ .x < 70))
)
# A tibble: 3 × 9
ID exam1 exam2 exam3 quiz1 quiz2 quiz3 fail_exam fail_quiz
<chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 Dave 80 30 90 90 33 90 1 1
2 Joe 100 90 65 90 100 90 1 0
3 Steve 90 88 95 20 100 50 0 1

PS - 另见 dplyr::if_all()

编辑:在任意数量的“测验”/“考试”类别中执行相同操作的解决方案。这会按 ID 和类型创建一个单独的故障汇总表,然后您可以将其合并回原始数据框中。

library(dplyr)
library(tidyr)

failures <- data %>%
pivot_longer(
!ID,
names_to = c("type", "number"),
names_pattern = "^(\\w+)(\\d+)$"
) %>%
group_by(ID, type) %>%
summarize(
fail = as.numeric(any(value < 70)),
.groups = "drop"
) %>%
ungroup() %>%
pivot_wider(
names_from = type,
names_glue = "fail_{type}",
values_from = fail
)

data %>%
left_join(failures)

关于r - 当多个变量的条件相同时简化 case_when(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74303205/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com