gpt4 book ai didi

r - 在 R 中选择随机数据点

转载 作者:行者123 更新时间:2023-12-05 09:24:05 25 4
gpt4 key购买 nike

我有一个大数据集,我想创建 3 个随机选择的(大小 = 50)原始数据集的子集。我只想从特定列(具体为第 13 列)中提取要点。

这在 R 中一定很容易做到,我应该怎么做?

最佳答案

replicate(3, sample(200, 50))

其中 200 是数据框中的行数(相应调整)。更自动地,假设数据在对象 df

replicate(3, sample(nrow(df), 50))

举个例子

set.seed(10)
df <- data.frame(x1 = rnorm(1000), x2 = rnorm(1000))

ind <- replicate(3, sample(nrow(df), 50))
head(ind)

> head(ind)
[,1] [,2] [,3]
[1,] 380 220 702
[2,] 75 751 720
[3,] 775 278 153
[4,] 988 612 340
[5,] 282 568 925
[6,] 266 794 812

列包含您想要的 3 个子集。然后您可以使用它来索引原始数据框,例如

df[ind[,1], "x2"]

> df[ind[,1], "x2"]
[1] 0.57982435 0.27016645 -0.08435526 1.16768142 1.38124150 0.62444167
[7] -0.54887437 1.91301831 1.84116197 0.94045377 -1.15417235 -0.06809104
[13] -2.03652525 1.06773801 -0.34235315 -0.24707548 -1.80470122 0.11993674
[19] -0.36358182 0.16819156 -1.84507669 -0.16707925 -1.80789383 0.78894210
[25] -0.05741295 -0.28905260 2.38724835 2.75762831 -0.18082554 1.61820620
[31] -0.48192569 -0.03298339 0.52087746 0.32774925 1.52103207 -0.15619668
[37] -0.49687983 -0.06623606 2.21855213 -0.48727519 1.01115806 0.25213485
[43] 1.01927105 0.31362619 0.40260968 0.26795767 0.01803656 0.19579576
[49] -0.26464131 0.48141105

其中我采用第一个子集和变量x2

请注意,这是假设您希望在不放回的情况下进行采样;换句话说,df 中的每一行可以在一个子集中出现 0 次或 1 次,而不是多次。如果您想要后者,请参阅 ?sample 中的 replace 参数。

关于r - 在 R 中选择随机数据点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16050946/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com