r dplyr sample_frac 在数据中使用种子-6ren

r dplyr sample_frac 在数据中使用种子

转载作者：行者123 更新时间：2023-12-03 19:57:17

26

4

我有一个分组数据框，其中分组变量是SEED .我想采用由 SEED 的值定义的组, 将种子设置为 SEED 的值对于每个组，然后使用 dplyr::sample_frac 对每个组的行进行洗牌.但是，我无法复制我的结果，这表明种子设置不正确。

在 dplyr 中执行此操作-ish方式，我写了以下函数:

> library(dplyr)
> ss_sampleseed <- function(df, seed.){
>   set.seed(df$seed.)
>   sample_frac(df, 1)
> }

然后我在我的数据上使用这个函数:

> dg <- structure(list(Gene = c("CAMK1", "ARPC4", "CIDEC", "CAMK1", "ARPC4", 
> "CIDEC"), GENESEED = c(1, 1, 1, 2, 2, 2)), class = c("tbl_df", 
> "tbl", "data.frame"), row.names = c(NA, -6L), .Names = c("Gene", 
> "GENESEED"))

> dg2 <- dg %>%
>   group_by(GENESEED) %>%
>   ss_sampleseed(GENESEED)

> dg2
Source: local data frame [6 x 2]
Groups: GENESEED

   Gene GENESEED
1 ARPC4        1
2 CIDEC        1
3 CAMK1        1
4 CIDEC        2
5 ARPC4        2
6 CAMK1        2

但是，当我重复上述代码时，我无法复制我的结果。

> dg2
Source: local data frame [6 x 2]
Groups: GENESEED

   Gene GENESEED
1 ARPC4        1
2 CAMK1        1
3 CIDEC        1
4 CAMK1        2
5 ARPC4        2
6 CIDEC        2

最佳答案

这里的问题是美元符号不会替代您传递的参数。请参阅此最小示例:

df <- data.frame(x = "x", GENESEED = "GENESEED")
h <- function(df,x){
  df$x
}
h(df, GENESEED)
[1] x
Levels: x

见 h返回 x即使您要求 GENESEED .所以你的函数实际上是试图得到 df$seed不存在所以它返回 NULL .

但还有一个问题。即使纠正这一点并直接传递种子，它似乎也不会如您所愿，因为，如果您查看 sample_frac 的代码, dplyr 最终将运行以下行:

sampled <- lapply(index, sample_group, frac = TRUE, tbl = tbl, 
        size = size, replace = replace, weight = weight, .env = .env)

请注意，它运行了 lapply 后您设置了种子，因此您不会根据 GENESEED 为每个组定义不同的种子。如你所愿。

考虑到这一点，我想出了这个解决方案，使用 sample.int和 do :

ss_sampleseed <- function(x){ 
  set.seed(unique(x$GENESEED))
  x[sample.int(nrow(x)), ]
}

dg %>% group_by(GENESEED) %>% do(ss_sampleseed(.))

这似乎可以如您所愿。

关于r dplyr sample_frac 在数据中使用种子，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31039885/

26

4

0

文章推荐： javafx - 无需使用awt即可保存图像

文章推荐： emulation - 提高qemu时钟的速度

文章推荐： variables - Fortran 未分配数组

migration - 在其他列中的字段之后制作 Sequelize 种子
Sequelize 中有没有办法添加另一列，然后用另一列的内容填充它？最佳答案您可以使用迁移来做到这一点。就像是 queryInterface.addColumn( 'MyAwesomeTa
hash - 种子 info_hash 参数
如何计算info_hash参数？又名对应于信息字典的哈希？？来自官方规范: info_hash The 20 byte sha1 hash of the bencoded form of the i
java - Nutch 种子 URL
是否可以直接从数据库或服务等将 URL 获取到 Nutch。我对从数据库或服务获取数据并将其写入 Seed.txt 的方式不感兴趣. 最佳答案没有。这不能直接使用默认的 nutch 代码库来完成。需
java - 如何设置 MessageDigest 种子？
MessageDigest 类实现了 SHA-1 算法(以及许多其他算法)。 SHA-1 算法允许使用不同的“种子”或初始摘要。参见 SHA-1 Psuedocode 算法初始化变量，或种子: Ini
javascript - 种子 PRNG 的安全性
我想创建一个应用程序，其中登录密码可以作为伪随机数生成器的种子以重新创建加密 key 。然后，该加密 key 将用于加密发送到应用程序数据库和从应用程序数据库发送的所有数据，使用户数据甚至主机都无法访
c++ - 不涉及时间的 rand() 种子？
这个问题在这里已经有了答案: Recommended way to initialize srand? (15 个答案) 关闭 8 年前。使用 srand(time(NULL))似乎过于确定性。例
c# - 未调用 DropCreateDatabaseAlways 种子
我在获取要在我的自定义数据库初始值设定项上调用的 Seed 方法时遇到问题。我正在使用 EF 5.0 并具有以下代码: public static class MyDatabase { pub
php - 种子 Silverstripe 数据库
是否可以像在 Rails 中那样“播种”数据库？我想将种子与图像对象管理器结合使用，以便我可以按标题获取记录。最佳答案根据您对 Ingo 的回答留下的评论，您想将 requireDefaultRe
c# - 没有更新数据库的 EF6 种子
我现在设置了一个应用程序来使用 EF6 代码优先迁移。我使用 Add-Migration 的标准工作流程，然后在控制台中使用 Update-Database。我在本地以及我们的开发环境中使用 Migr
regex - 种子 | awk 在匹配下一行后删除行
如果 Name 返回然后删除 first name Name john Age 30 Name Alice Name Travis Age 12 Name Monty Name Hannah 期望的输
php - 迁移后的 Laravel 种子
在迁移完成后，是否可以在我的迁移中放入一些东西来自动为表播种测试数据？或者您必须单独播种？最佳答案您可以使用 --seed 选项调用 migrate:refresh 以在迁移完成后自动播种: p
python - scipy.stats 种子？
我正在尝试使用不同的种子生成 scipy.stats.pareto.rvs(b, loc=0, scale=1, size=1)。在 numpy 中，我们可以使用 numpy.random.seed
带有 uuid 的 Laravel 种子
我的种子有问题。这是我的表结构: 1.Complaints: Schema::create('complaints', function (Blueprint $table) {
c# - 未调用 Entity Framework 种子
我在使用数据库初始化程序时遇到问题 - 从未调用过种子方法。类似的代码在另一个项目中工作，所以我很困惑为什么他们这次不工作。这是我的代码: RecipeContext.cs public c
MySql:使用 RAND(种子)为变量分配随机数
我正在尝试做一些我认为非常简单的事情，只需使用 RAND 创建 0-1 之间的随机数，并将其分配给十进制变量。但每次我在 MySQL 中运行代码时，它都会返回零! 参见下面的代码: DELIMITER
java - 二维数组到 int(种子)并返回
我有一个问题...... 这里我们得到了一个二维字节数组: byte[][] duengonMap = new byte[500][500]; 因为我想将它从客户端发送到服务器或者相反，我需要将其放入
angularjs - Angular 种子 Protractor 抛出错误
我尝试在我的计算机上运行 Angular-seed(Windows 10，上次更新)https://github.com/angular/angular-seed 。网络工作正常，但我的 Protra
python - 多处理中的 numpy.random 种子
我有一个随机过程的分布式过程。因此，我使用 numpy.random.RandomState 来播种数字。问题是我必须在包装器中使用另一个 numpy.random 函数。现在我失去了种子的再现性，因
python 3 : random. 种子 () : where to call it?
我需要确保我程序中的所有随机性都是完全可复制的。我应该在哪里调用 random.seed()？我认为它应该在我的 main.py 模块中，但它导入了碰巧使用随机函数的其他模块。我可以仔细浏览我的导
c# - EntityFramework 种子 AddOrUpdate 与外键
首先尝试使用 Entity Framework 和代码在 ASP.NET 网络应用程序中植入数据。我将这段代码放在 Configuration.cs 文件的 Seed() 方法中。现在，我正在处理解决

首页

博学

6Ren·AI

商城

r dplyr sample_frac 在数据中使用种子