gpt4 book ai didi

r - 如何在 R 的 For 循环中正确使用 group_by() 和 summarise()

转载 作者:行者123 更新时间:2023-12-03 03:42:26 30 4
gpt4 key购买 nike

我正在尝试计算一些摘要信息,以帮助我检查数据集中不同组中的异常值。我可以使用 dplyr::group_by() 和 dplyr::summarise() 获得我想要的输出 - 一个数据帧,其中包含给定变量的每个组的摘要信息。像这样的事情:

Sepal.Length_outlier_check <- iris %>%
dplyr::group_by(Species) %>%
dplyr::summarise(min = min(Sepal.Length, na.rm = TRUE),
max = max(Sepal.Length, na.rm = TRUE),
median = median(Sepal.Length, na.rm = TRUE),
MAD = mad(Sepal.Length, na.rm = TRUE),
MAD_lowlim = median - (3 * MAD),
MAD_highlim = median + (3 * MAD),
Outliers_low = any(Sepal.Length < MAD_lowlim, na.rm = TRUE),
Outliers_high = any(Sepal.Length > MAD_highlim, na.rm = TRUE)
)

Sepal.Length_outlier_check

但是,我希望能够将其放入 For 循环中,以便能够为数据集中的每个不同变量生成类似的摘要数据帧。我是使用循环的新手,但我认为它可能需要看起来像这样:

vars <- list(colnames(iris))

for (i in vars) {

x <- iris %>%
dplyr::group_by(Species) %>%
dplyr::summarise(min = min(i, na.rm = TRUE),
max = max(i, na.rm = TRUE),
median = median(i, na.rm = TRUE),
MAD = mad(i, na.rm = TRUE),
MAD_lowlim = median - (3 * MAD),
MAD_highlim = median + (3 * MAD),
Outliers_low = any(i < MAD_lowlim, na.rm = TRUE),
Outliers_high = any(i > MAD_highlim, na.rm = TRUE)
)

assign(paste(i, "Outlier_check", sep = "_"), x)

}

我知道这不起作用,因为在摘要函数中 i 实际上并未引用任何数据。我不确定我需要做什么才能让它发挥作用!我将非常感谢您的帮助,或者任何关于如何更优雅地完成这一切的建议。

我不愿意使用 dplyr::summarise_all() 因为它为所有变量输出一个汇总表,并且由于我正在处理的真实数据集有许多变量,因此该汇总表会变得太大而无法轻松查看。

谢谢。

最佳答案

您还可以编写一个函数,使其更简单、更灵活。使用整洁的评估方法,您可以使用 rlang::sym()将字符串转换为变量,然后在 summarise() 中取消引用它与 !! (嘭嘭)。

library(dplyr)

check_outlier <- function(df, .groupvar, .checkvar) {

.groupvar <- sym(.groupvar)
.checkvar <- sym(.checkvar)

df_outlier_check <- df %>%
dplyr::group_by(!! .groupvar) %>%
dplyr::summarise(min = min(!! .checkvar, na.rm = TRUE),
max = max(!! .checkvar, na.rm = TRUE),
median = median(!! .checkvar, na.rm = TRUE),
MAD = mad(!! .checkvar, na.rm = TRUE),
MAD_lowlim = median - (3 * MAD),
MAD_highlim = median + (3 * MAD),
Outliers_low = any(!! .checkvar < MAD_lowlim, na.rm = TRUE),
Outliers_high = any(!! .checkvar > MAD_highlim, na.rm = TRUE)
)

return(df_outlier_check)

}

# test function
check_outlier(iris, "Species", "Sepal.Length")

#> # A tibble: 3 x 9
#> Species min max median MAD MAD_lowlim MAD_highlim Outliers_low
#> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <lgl>
#> 1 setosa 4.3 5.8 5 0.297 4.11 5.89 FALSE
#> 2 versic~ 4.9 7 5.9 0.519 4.34 7.46 FALSE
#> 3 virgin~ 4.9 7.9 6.5 0.593 4.72 8.28 FALSE
#> # ... with 1 more variable: Outliers_high <lgl>

循环遍历所有变量并使用 purrr::map_df() 将结果合并到单个数据框中

library(purrr)
vars <- c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width")
vars %>%
set_names() %>%
map_df(~ check_outlier(iris, "Species", .x), .id = 'Variable')

#> # A tibble: 12 x 10
#> Variable Species min max median MAD MAD_lowlim MAD_highlim
#> <chr> <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 Sepal.L~ setosa 4.3 5.8 5 0.297 4.11 5.89
#> 2 Sepal.L~ versic~ 4.9 7 5.9 0.519 4.34 7.46
#> 3 Sepal.L~ virgin~ 4.9 7.9 6.5 0.593 4.72 8.28
#> 4 Sepal.W~ setosa 2.3 4.4 3.4 0.371 2.29 4.51
#> 5 Sepal.W~ versic~ 2 3.4 2.8 0.297 1.91 3.69
#> 6 Sepal.W~ virgin~ 2.2 3.8 3 0.297 2.11 3.89
#> 7 Petal.L~ setosa 1 1.9 1.5 0.148 1.06 1.94
#> 8 Petal.L~ versic~ 3 5.1 4.35 0.519 2.79 5.91
#> 9 Petal.L~ virgin~ 4.5 6.9 5.55 0.667 3.55 7.55
#> 10 Petal.W~ setosa 0.1 0.6 0.2 0 0.2 0.2
#> 11 Petal.W~ versic~ 1 1.8 1.3 0.222 0.633 1.97
#> 12 Petal.W~ virgin~ 1.4 2.5 2 0.297 1.11 2.89
#> # ... with 2 more variables: Outliers_low <lgl>, Outliers_high <lgl>

reprex package于2018年10月20日创建(v0.2.1.9000)

关于r - 如何在 R 的 For 循环中正确使用 group_by() 和 summarise(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52908192/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com