gpt4 book ai didi

r - 使用 dplyr 创建一个字符变量,其值以先前变量(它们的名称和值)为条件

转载 作者:行者123 更新时间:2023-12-02 00:14:10 25 4
gpt4 key购买 nike

我有一个包含约 100 个变量和数千个观察值的数据框。其中一些观察结果由于某些变量的值而无法进行进一步分析。我不想只是删除这些不合格的观察结果,我想创建一个字符变量来指示是否观察结果已被不合格,如果是,因为哪些变量>(由于多个变量,一项观察可能被取消资格)。

大多数变量都是数字,可以具有以下值之一:-101。除此之外,可能使观察不合格的变量也可以采用值 99,这意味着不合格。

# create example data
df <- data.frame(id = c(1:6),
AA_B = c(1, 0, NA, 1, -1, 99),
A_B_C = c(0, 0, 0, -1, 1, NA),
A_BB = c(-1, 99, 0, 0, -1, NA),
B_C = c(99, NA, 1, 99, 0, 99),
D_AC = c(1, 1, 1, 1, -1, -1))

如果观察被取消资格,新变量“disqualify”应该类似于Disqualified due to A_BBDisqualified due to AA_B and B_C(取决于哪些变量导致取消资格),否则它可以是任何其他字符串或只是 NA。因此,结果应如下所示:

> df
id AA_B A_B_C A_BB B_C D_AC disqualify
1 1 1 0 -1 99 1 Disqualified because of B_C
2 2 0 0 99 NA 1 Disqualified because of A_BB
3 3 NA 0 0 1 1 <NA>
4 4 1 -1 0 99 1 Disqualified because of B_C
5 5 -1 1 -1 0 -1 <NA>
6 6 99 NA NA 99 -1 Disqualified because of AA_B and B_C

我正在努力寻找一种方法来自动将导致取消资格的变量的变量名称包含在“disqualify”字符串中。到目前为止,我已经找到了以下解决方案,但这是一个可怕的代码和平,我确信一定有更好的方法来做到这一点。

df <-
df %>%
mutate(disqualify = case_when(AA_B == 99 |
A_BB == 99 |
B_C == 99 ~ paste("Disqualified because of",
case_when(AA_B == 99 & (is.na(A_BB) | A_BB != 99) & (is.na(B_C) | B_C != 99) ~ deparse(substitute(AA_B)),
AA_B == 99 & A_BB == 99 & (is.na(B_C) | B_C != 99) ~ paste(deparse(substitute(AA_B)), deparse(substitute(A_BB)), sep = " and "),
AA_B == 99 & A_BB == 99 & B_C == 99 ~ paste(deparse(substitute(AA_B)), deparse(substitute(A_BB)), deparse(substitute(B_C)), sep = " and "),
AA_B == 99 & (is.na(A_BB) | A_BB != 99) & B_C == 99 ~ paste(deparse(substitute(AA_B)), deparse(substitute(B_C)), sep = " and "),
(is.na(AA_B) | AA_B != 99) & A_BB == 99 & B_C == 99 ~ paste(deparse(substitute(A_BB)), deparse(substitute(B_C)), sep = " and "),
(is.na(AA_B) | AA_B != 99) & A_BB == 99 & (is.na(B_C) | B_C != 99) ~ deparse(substitute(A_BB)),
(is.na(AA_B) | AA_B != 99) & (is.na(A_BB) | A_BB != 99) & B_C == 99 ~ deparse(substitute(B_C))
))))

如果可能的话,我更喜欢 dplyr 解决方案,它允许我通过变量名称调用不合格变量(无索引)。

而且,最重要的是,如果有一种方法可以用另一个字符串替换输出变量中的变量名称,那就太棒了。因此,因 A_BB 而取消资格可能会变为因天气而取消资格

感谢任何帮助!

最佳答案

library(dplyr)
df %>%
#Check for 99 in specific columns
mutate(disqualify = apply(.[,c('AA_B','A_B_C','A_BB','B_C')], 1, function(x) ifelse(any(x==99),
paste0("Disqualified because of ", paste(names(x[!is.na(x) & x==99]), collapse = " and ")),
NA)))

id AA_B A_B_C A_BB B_C D_AC disqualify
1 1 1 0 -1 99 1 Disqualified because of B_C
2 2 0 0 99 NA 1 Disqualified because of A_BB
3 3 NA 0 0 1 1 <NA>
4 4 1 -1 0 99 1 Disqualified because of B_C
5 5 -1 1 -1 0 -1 <NA>
6 6 99 NA NA 99 -1 Disqualified because of AA_B and B_C

#Base R
df$disqualify <- apply(df[,c('AA_B','A_B_C','A_BB','B_C')], 1, function(x) ifelse(any(x==99),
paste0("Disqualified because of ", paste(names(x[!is.na(x) & x==99]), collapse = " and ")),
NA))

在基础 R 中,我们可以在数据帧行/列上应用一个函数,具体取决于您传递的是 1 还是 2。这里我们需要将一个函数应用到每一行,因此我们使用了 1. 请参阅 ?apply 了解更多详细信息。

关于r - 使用 dplyr 创建一个字符变量,其值以先前变量(它们的名称和值)为条件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58729167/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com