r - 自定义分组 dplyr 函数 (sample

r - 自定义分组 dplyr 函数 (sample_n)

转载作者：行者123 更新时间：2023-12-01 12:06:57

29

4

我试图以分组的方式将采样函数应用于数据框，如果组大小小于 n，它应该从每个组或所有组成员中采样 n 个样本。

使用dplyr，我第一次尝试

library(dplyr)
mtcars %>% group_by(cyl) %>% sample_n(2)

这在 n 小于所有组大小时有效，但当我选择 n 大于组大小时不占用整个组(请注意，其中一个 cyl 组中有 7 辆车):

mtcars %>% group_by(cyl) %>% sample_n(8)
Error: `size` must be less or equal than 7 (size of data), 
set `replace` = TRUE to use sampling with replacement

我试图通过创建一个适应的 group_n 函数来解决这个问题，如下所示:

sample_n_or_all <- function(tbl, n) {
  if (nrow(tbl) < n)return(tbl)
  sample_n(tbl, n)
}

但是使用我的自定义函数( mtcars %>% group_by(cyl) %>% sample_n_or_all(8) )会产生相同的错误。

我有什么建议可以调整我的功能，以便我可以将其应用于每个组？或者问题的另一种解决方案？

最佳答案

我们可以检查组中的行数并将值传递给 sample_n因此。

library(dplyr)
n <- 8

temp <- mtcars %>% group_by(cyl) %>% sample_n(if(n() < n) n() else n) 
temp

#    mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
# 1  21.4     4 121     109  4.11  2.78  18.6     1     1     4     2
# 2  27.3     4  79      66  4.08  1.94  18.9     1     1     4     1
# 3  24.4     4 147.     62  3.69  3.19  20       1     0     4     2
# 4  22.8     4 108      93  3.85  2.32  18.6     1     1     4     1
# 5  26       4 120.     91  4.43  2.14  16.7     0     1     5     2
# 6  33.9     4  71.1    65  4.22  1.84  19.9     1     1     4     1
# 7  30.4     4  75.7    52  4.93  1.62  18.5     1     1     4     2
# 8  30.4     4  95.1   113  3.77  1.51  16.9     1     1     5     2
# 9  21       6 160     110  3.9   2.62  16.5     0     1     4     4
#10  17.8     6 168.    123  3.92  3.44  18.9     1     0     4     4
# … with 13 more rows

之后我们可以检查每组中的行数。

table(temp$cyl)

#4 6 8 
#8 7 8 

table(mtcars$cyl)

# 4  6  8 
#11  7 14

关于r - 自定义分组 dplyr 函数 (sample_n)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55676368/

29

4

0

文章推荐： python - 将 Pandas DataFrame 中的 2 列与 .loc 进行比较

文章推荐： java - 如何实现本地日志系统？

文章推荐： arrays - 如何检查我的对象PersistantCollection中是否存在值？

r - 如何将随机种子分配给 dplyr sample_n 函数？
这是来自 R 中 dplyr 的“sample_n”。 https://dplyr.tidyverse.org/reference/sample.html 为了可重复性，我应该放置一个种子，以便其他人
r - dplyr sample_n 按组，每组具有唯一的大小参数
我试图从数据集中抽取一个分层样本，其中存在一个变量，表明每组的样本量应该有多大。 library(dplyr) # example data df % do.call(what = rbi
使用 dplyr 和 sample_n 根据权重随机抽样
我想根据单独数据框中的索引给出的一组权重随机抽样月份，但索引会根据一些分类变量而变化。下面是一个示例问题: require(dplyr) sim.size % group_by(category
r - 自定义分组 dplyr 函数 (sample_n)
我试图以分组的方式将采样函数应用于数据框，如果组大小小于 n，它应该从每个组或所有组成员中采样 n 个样本。使用dplyr，我第一次尝试 library(dplyr) mtcars %>% grou
r - 使用 dplyr 的 sample_n 函数按组采样
根据dplyr帮助文件 sample_n函数对每组采样固定数量。当我运行以下代码时，我希望每个 tobgp 和 alcgp 组合有两个样本，因此总共有 32 (4*4*2) 行。但是只返回两行。 b
r - dplyr sample_n 其中 n 是分组变量的值
我有以下分组数据框，我想使用函数 dplyr::sample_n从该数据框中为每个组提取行。我想使用分组变量的值NDG在每个组中作为要从每个组中提取的行数。 > dg.tmp dg % d

首页

博学

6Ren·AI

商城

r - 自定义分组 dplyr 函数 (sample_n)