r - 因子分层抽样-6ren

r - 因子分层抽样

转载作者：行者123 更新时间：2023-12-04 09:28:59

24

4

我有一个 1000 行的数据集，其结构如下:

     device geslacht leeftijd type1 type2
1       mob        0       53     C     3
2       tab        1       64     G     7
3        pc        1       50     G     7
4       tab        0       75     C     3
5       mob        1       54     G     7
6        pc        1       58     H     8
7        pc        1       57     A     1
8        pc        0       68     E     5
9        pc        0       66     G     7
10      mob        0       45     C     3
11      tab        1       77     E     5
12      mob        1       16     A     1

我想制作一个 80 行的样本，由 type1 = A 的 10 行、type1 = B 的 10 行组成，依此类推。有没有人可以帮助他？

最佳答案

这是我将如何使用 data.table 来解决这个问题

library(data.table)
indx <- setDT(df)[, .I[sample(.N, 10, replace = TRUE)], by = type1]$V1
df[indx]
#     device geslacht leeftijd type1 type2
#  1:    mob        0       45     C     3
#  2:    mob        0       53     C     3
#  3:    tab        0       75     C     3
#  4:    mob        0       53     C     3
#  5:    tab        0       75     C     3
#  6:    mob        0       45     C     3
#  7:    tab        0       75     C     3
#  8:    mob        0       53     C     3
#  9:    mob        0       53     C     3
# 10:    mob        0       53     C     3
# 11:    mob        1       54     G     7
#...

或者更简单的版本是

setDT(df)[, .SD[sample(.N, 10, replace = TRUE)], by = type1]

基本上，我们从 type1 的每组中的行索引中采样(带有替换 - 因为每组中的行数少于 10 行)。然后通过这个索引对数据进行子集化

与 dplyr 类似你可以

library(dplyr)
df %>% 
  group_by(type1) %>%
  sample_n(10, replace = TRUE)

关于r - 因子分层抽样，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30097382/

24

4

0

文章推荐： complexity-theory - 使用归纳法证明 n = Big-O(1)

文章推荐： maven-2 - 使用 Maven 项目交付单个 jar

文章推荐：如果两列在 R 中匹配，则替换值

文章推荐： r - 重新采样R中联立方程的参数值时如何存储循环的输出？

python - 从 python 列表中快速、独立地随机抽取/抽样-固定概率，而不是总数
我想从列表中抽取项目样本，但我想设置每个项目被包含的概率，而不是要抽取的项目总数(所以 random.sample( ) 不起作用)。我用下面的代码得到了我想要的效果(其中 p 是包含的概率，item
google-analytics - 尽管 session 数较少，但 Google Analytics(分析)抽样
我正在使用 Google Analytics Reporting API，但即使指定日期范围内的 session 远少于 500K limit，我也会得到抽样结果。 .我一个月只有约 4K 次 ses

首页

博学

6Ren·AI

商城

r - 因子分层抽样