作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 1000 行的数据集,其结构如下:
device geslacht leeftijd type1 type2
1 mob 0 53 C 3
2 tab 1 64 G 7
3 pc 1 50 G 7
4 tab 0 75 C 3
5 mob 1 54 G 7
6 pc 1 58 H 8
7 pc 1 57 A 1
8 pc 0 68 E 5
9 pc 0 66 G 7
10 mob 0 45 C 3
11 tab 1 77 E 5
12 mob 1 16 A 1
最佳答案
这是我将如何使用 data.table
来解决这个问题
library(data.table)
indx <- setDT(df)[, .I[sample(.N, 10, replace = TRUE)], by = type1]$V1
df[indx]
# device geslacht leeftijd type1 type2
# 1: mob 0 45 C 3
# 2: mob 0 53 C 3
# 3: tab 0 75 C 3
# 4: mob 0 53 C 3
# 5: tab 0 75 C 3
# 6: mob 0 45 C 3
# 7: tab 0 75 C 3
# 8: mob 0 53 C 3
# 9: mob 0 53 C 3
# 10: mob 0 53 C 3
# 11: mob 1 54 G 7
#...
setDT(df)[, .SD[sample(.N, 10, replace = TRUE)], by = type1]
type1
的每组中的行索引中采样(带有替换 - 因为每组中的行数少于 10 行)。然后通过这个索引对数据进行子集化
dplyr
类似你可以
library(dplyr)
df %>%
group_by(type1) %>%
sample_n(10, replace = TRUE)
关于r - 因子分层抽样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30097382/
我想从列表中抽取项目样本,但我想设置每个项目被包含的概率,而不是要抽取的项目总数(所以 random.sample( ) 不起作用)。我用下面的代码得到了我想要的效果(其中 p 是包含的概率,item
我正在使用 Google Analytics Reporting API,但即使指定日期范围内的 session 远少于 500K limit,我也会得到抽样结果。 .我一个月只有约 4K 次 ses
我是一名优秀的程序员,十分优秀!