使用 dplyr 和 sample_n 根据权重随机抽样-6ren

使用 dplyr 和 sample_n 根据权重随机抽样

转载作者：行者123 更新时间：2023-12-02 04:50:06

27

4

我想根据单独数据框中的索引给出的一组权重随机抽样月份，但索引会根据一些分类变量而变化。

下面是一个示例问题:

require(dplyr)
sim.size <- 1000
# Generating the weights for each month, and category combination
class_probs <- data_frame(categoryA=rep(letters[1:3],24)
                          categoryB=rep(LETTERS[1:2],each=36),
                          Month=rep(month.name,6),
                          MonthIndex=runif(72))


# Generating some randomly simulated cateogories
sim.data <- data_frame(categoryA=sample(letters[1:3],size=sim.size,replace=TRUE),
                       categoryB=sample(LETTERS[1:2],size=sim.size,replace=TRUE))

# This is where i need help
# I would like to add an extra column called Month on the end of sim.data
# That will be sampled using the class_probs data, taking into account the
# Both categoryA and categoryB to generate the weights in MonthIndex
sim.data %>%
  group_by(categoryA,categoryB) %>%
  do(sample_n(class_probs[class_probs$categoryA==categoryA &
                          class_probs$categoryB==categoryB,  ],
              size=nrow(sim.data[sim.data$categoryA==categoryA &
                                 sim.data$categoryB==categoryB]),
              replace=TRUE,
             weight=MonthIndex)$Month)

因此，对于每个组，我希望能够对 categoryA 和 categoryB 的特定组合的相同次数进行采样，并且对于每次出现的情况，我都希望根据 class_prob 数据子集给出的 MonthIndex 对一个月进行采样。框架...

然后将所选月份绑定(bind)到原始数据集 sim.data作为额外的列

希望我的代码已经很接近了...我只需要一些帮助来确定需要更改的内容...

最佳答案

这是一种使用辅助函数进行采样的方法，然后是一个简单的 mutate来电dplyr创建新列。

辅助函数:

sampler <- function(x, y, df) {

  tab <- sample_n(df %>% filter(categoryA==x, 
                  categoryB==y),
           size=1,
           replace=TRUE,
           weight=MonthIndex)

  return(tab$Month)

}

调用它来创建一个新变量:

sim.data %>%
  rowwise() %>%
  mutate(month = sampler(categoryA, categoryB, class_probs))

结果:

Source: local data frame [1,000 x 3]
Groups: <by row>

   categoryA categoryB     month
1          b         B  February
2          b         A  February
3          b         B       May
4          c         B  December
5          c         B      June
6          b         A    August
7          c         A     March
8          c         A September
9          b         A    August
10         c         A  December
..       ...       ...       ...

关于使用 dplyr 和 sample_n 根据权重随机抽样，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29526125/

27

4

0

文章推荐： unity3d - Unity 3D 中的非全屏键盘

文章推荐： powershell - 完成后删除 Backup-SqlDatabase 进度条

文章推荐： CakePHP 3 和 ACL 插件

文章推荐： scala - 在 scalaguice 中急切地初始化单例 Actor

r - 如何将随机种子分配给 dplyr sample_n 函数？
这是来自 R 中 dplyr 的“sample_n”。 https://dplyr.tidyverse.org/reference/sample.html 为了可重复性，我应该放置一个种子，以便其他人
r - dplyr sample_n 按组，每组具有唯一的大小参数
我试图从数据集中抽取一个分层样本，其中存在一个变量，表明每组的样本量应该有多大。 library(dplyr) # example data df % do.call(what = rbi
使用 dplyr 和 sample_n 根据权重随机抽样
我想根据单独数据框中的索引给出的一组权重随机抽样月份，但索引会根据一些分类变量而变化。下面是一个示例问题: require(dplyr) sim.size % group_by(category
r - 自定义分组 dplyr 函数 (sample_n)
我试图以分组的方式将采样函数应用于数据框，如果组大小小于 n，它应该从每个组或所有组成员中采样 n 个样本。使用dplyr，我第一次尝试 library(dplyr) mtcars %>% grou
r - 使用 dplyr 的 sample_n 函数按组采样
根据dplyr帮助文件 sample_n函数对每组采样固定数量。当我运行以下代码时，我希望每个 tobgp 和 alcgp 组合有两个样本，因此总共有 32 (4*4*2) 行。但是只返回两行。 b
r - dplyr sample_n 其中 n 是分组变量的值
我有以下分组数据框，我想使用函数 dplyr::sample_n从该数据框中为每个组提取行。我想使用分组变量的值NDG在每个组中作为要从每个组中提取的行数。 > dg.tmp dg % d

首页

博学

6Ren·AI

商城

使用 dplyr 和 sample_n 根据权重随机抽样