gpt4 book ai didi

r - 使用特定于组的样本大小从数据框中采样

转载 作者:行者123 更新时间:2023-12-03 23:33:21 24 4
gpt4 key购买 nike

我想使用每个组中不相等的样本大小从数据框中对行进行采样。
假设我们有一个按“组”分组的简单数据框:

library(dplyr)
set.seed(123)

df <- data.frame(group = rep(c("A", "B"), each = 10),
value = rnorm(10))
df
#> group value
#> 1 A -0.56047565
#> 2 A -0.23017749
#> .....
#> 10 A -0.44566197
#> 11 B -0.56047565
#> 12 B -0.23017749
#> .....
#> 20 B -0.44566197
使用 slice_sample 包中的 dplyr 函数,您可以轻松地从此数据帧中分割大小相等的组:
df %>% group_by(group) %>% slice_sample(n = 2) %>% ungroup()

#> # A tibble: 4 x 2
#> group value
#> <fct> <dbl>
#> 1 A -0.687
#> 2 A -0.446
#> 3 B -0.687
#> 4 B 1.56
问题
您如何从每个组(大小不等的切片组)中采样不同数量的值?例如,从 A 组中抽取 4 行,从 B 组中抽取 5 行?

最佳答案

我能想到的最简单的事情是 map2使用 purrr 的解决方案.

library(dplyr)
library(purrr)

df %>%
group_split(group) %>%
map2_dfr(c(4, 5), ~ slice_sample(.x, n = .y))
# A tibble: 9 x 2
group value
<chr> <dbl>
1 A -0.687
2 A 1.56
3 A 0.0705
4 A 1.72
5 B -0.560
6 B 0.461
7 B 0.129
8 B 0.0705
9 B -0.230
需要注意的是,您需要了解拆分的顺序。我想 group_split()将组作为因素进行排序。一种解决方法是像这样适应,并查找 n来自命名向量。
group_slice_n <- c(A = 4, B = 5)

df %>%
split(.$group) %>%
imap_dfr(~ slice_sample(.x, n = group_slice_n[.y]))

关于r - 使用特定于组的样本大小从数据框中采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66476142/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com