r - R中索引矩阵的快速(er)方法-6ren

r - R中索引矩阵的快速(er)方法

转载作者：行者123 更新时间：2023-12-04 12:41:23

28

4

最重要的是，我正在寻找一种快速(er)方法来多次设置/索引矩阵:

for (i in 1:99000) {
  subset.data <- data[index[, i], ]
}

背景:
我正在实现一个涉及 R 中 bootstrap 的顺序测试程序。想要复制一些模拟结果，我发现
这是需要进行大量索引的瓶颈。为了实现块引导，我创建了一个索引矩阵，我用它子集
原始数据矩阵以绘制数据的重采样。

# The basic setup

B <- 1000 # no. of bootstrap replications
n <- 250  # no. of observations
m <- 100  # no. of models/data series

# Create index matrix with B columns and n rows.
# Each column represents a resampling of the data.
# (actually block resamples, but doesn't matter here).

boot.index <- matrix(sample(1:n, n * B, replace=T), nrow=n, ncol=B)

# Make matrix with m data series of length n.

sample.data <- matrix(rnorm(n * m), nrow=n, ncol=m)

subsetMatrix <- function(data, index) { # fn definition for timing
  subset.data <- data[index, ]
  return(subset.data)
}

# check how long it takes.

Rprof("subsetMatrix.out")
for (i in 1:(m - 1)) { 
  for (b in 1:B) {  # B * (m - 1) = 1000 * 99 = 99000
    boot.data <- subsetMatrix(sample.data, boot.index[, b])
    # do some other stuff
  }
  # do some more stuff
}
Rprof()
summaryRprof("subsetMatrix.out")

# > summaryRprof("subsetMatrix.out")
# $by.self
#              self.time self.pct total.time total.pct
# subsetMatrix      9.96      100       9.96       100

# In the actual application:
#########
# > summaryRprof("seq_testing.out")
# $by.self
#              self.time self.pct total.time total.pct
# subsetMatrix       6.78    53.98       6.78     53.98
# colMeans           1.98    15.76       2.20     17.52
# makeIndex          1.08     8.60       2.12     16.88
# makeStats          0.66     5.25       9.66     76.91
# runif              0.60     4.78       0.72      5.73
# apply              0.30     2.39       0.42      3.34
# is.data.frame      0.22     1.75       0.22      1.75
# ceiling            0.18     1.43       0.18      1.43
# aperm.default      0.14     1.11       0.14      1.11
# array              0.12     0.96       0.12      0.96
# estimateMCS        0.10     0.80      12.56    100.00
# as.vector          0.10     0.80       0.10      0.80
# matrix             0.08     0.64       0.08      0.64
# lapply             0.06     0.48       0.06      0.48
# /                  0.04     0.32       0.04      0.32
# :                  0.04     0.32       0.04      0.32
# rowSums            0.04     0.32       0.04      0.32
# -                  0.02     0.16       0.02      0.16
# >                  0.02     0.16       0.02      0.16
#
# $by.total
#              total.time total.pct self.time self.pct
# estimateMCS        12.56    100.00      0.10     0.80
# makeStats           9.66     76.91      0.66     5.25
# subsetMatrix        6.78     53.98      6.78    53.98
# colMeans            2.20     17.52      1.98    15.76
# makeIndex           2.12     16.88      1.08     8.60
# runif               0.72      5.73      0.60     4.78
# doTest              0.68      5.41      0.00     0.00
# apply               0.42      3.34      0.30     2.39
# aperm               0.26      2.07      0.00     0.00
# is.data.frame       0.22      1.75      0.22     1.75
# sweep               0.20      1.59      0.00     0.00
# ceiling             0.18      1.43      0.18     1.43
# aperm.default       0.14      1.11      0.14     1.11
# array               0.12      0.96      0.12     0.96
# as.vector           0.10      0.80      0.10     0.80
# matrix              0.08      0.64      0.08     0.64
# lapply              0.06      0.48      0.06     0.48
# unlist              0.06      0.48      0.00     0.00
# /                   0.04      0.32      0.04     0.32
# :                   0.04      0.32      0.04     0.32
# rowSums             0.04      0.32      0.04     0.32
# -                   0.02      0.16      0.02     0.16
# >                   0.02      0.16      0.02     0.16
# mean                0.02      0.16      0.00     0.00
#
# $sample.interval
# [1] 0.02
#
# $sampling.time
# [1] 12.56'

执行一次顺序测试程序大约需要 10 秒钟。在具有 2500 次重复和数次重复的模拟中使用它
参数星座，大约需要 40 天。使用并行处理和更好的 CPU 能力可以做得更快，但是
仍然不是很愉快:/

有没有更好的方法来重新采样数据/摆脱循环？

可以在任何地方应用、矢量化、复制等吗？

在 C 中实现子集是否有意义(例如操作一些指针)？

尽管 R 已经以惊人的速度完成了每一步，但还不够快。
对于任何类型的响应/帮助/建议，我都会非常高兴!

相关问题:
- Fast matrix subsetting via '[': by rows, by columns or doesn't matter?
- fast function for generating bootstrap samples in matrix forms in R
- random sampling - matrix

从那里

mapply(function(row) return(sample.data[row,]), row = boot.index)
replicate(B, apply(sample.data, 2, sample, replace = TRUE))

不是真的为我做的。

最佳答案

我改写了makeStats和 makeIndex因为它们是两个最大的瓶颈:

makeStats <- function(data, index) {

  data.mean <- colMeans(data)
  m <- nrow(data)
  n <- ncol(index)
  tabs <- lapply(1L:n, function(j)tabulate(index[, j], nbins = m))
  weights <- matrix(unlist(tabs), m, n) * (1 / nrow(index))
  boot.data.mean <- t(data) %*% weights - data.mean

  return(list(data.mean = data.mean,
              boot.data.mean = boot.data.mean))
}

makeIndex <- function(B, blocks){

  n <- ncol(blocks)
  l <- nrow(blocks)
  z <- ceiling(n/l)
  start.points <- sample.int(n, z * B, replace = TRUE)
  index <- blocks[, start.points]
  keep <- c(rep(TRUE, n), rep(FALSE, z*l - n))
  boot.index <- matrix(as.vector(index)[keep],
                       nrow = n, ncol = B)

  return(boot.index)
}

这将我机器上的计算时间从 28 秒缩短到 6 秒。我敢打赌，代码的其他部分可以改进(包括我在上面使用的 lapply/tabulate。)

关于r - R中索引矩阵的快速(er)方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20457188/

28

4

0

文章推荐： sql-server-2008 - SQL Server Intellisense 不适用于 *某些 * 服务器

文章推荐： ffmpeg - 使用 ffmpeg 从服务器流式传输视频帧

git - 如何正确使用git-svn，svn-ers checkout svnrepo 和git-ers clone gitrepo，粗心提交
在我的公司，我们使用 SVN，但希望将来无缝切换到 GIT。这就是我开始学习 git-svn 的原因，它有望作为 svn 存储库的前端。我尝试通过以下设置使用它: SVNREPO - 主 svn 存
freebsd - .Er 在手册页中意味着什么？
在我正在编辑的手册页中，我看到以下内容: .Er ENOENT ENOENT 这到底是什么意思？我查看了 man(1) 手册页，但没有看到任何有关如何读取原始文件的内容。最佳答案有关 .Er 的详
java - ER 建模中的常见错误？
我需要为考试练习 ER 建模，请记住，不会有任何第三方工具，它必须在纸上手动完成:(有什么建议可以避免错误吗？最佳答案我确信您已经在网络上进行了一些搜索。只是一些提示: 不要忘记注释您的基数(一比
mysql - ER 模型弱实体。
根据这些说明，我正在尝试创建一个 ER 模型。和这些说明: Total Escapes has a wide variety of tours on offer to its customers.
mysql - ER 图学校数据库
我使用陈表示法和理由制作了一个 ER 图。有人可以检查我的做法是否正确吗？除此之外我还有一些其他问题: 为什么弱实体总是只有一和一？ (粗箭头形式分配给has) 如何在 ER 图中处理 20 倍到
mysql - ER 图中的基数
我做了一个项目，本质上是一个在线书店，人们可以在那里购买书籍并下订单。我的数据库包含各种表，例如: 用户 user_shipping_address user_ payment_mode user_
mysql - ER 模型的未知部分
我想创建这个，但我不知道它到底是怎样的。我的猜测是，它可能像 Employee 表中的外键一样工作，但同样，我不明白如何创建这样的东西。如果这个问题已经得到解答，我很抱歉，但我不知道如何搜索。最佳答
java - "Do-er"类与静态实用方法
假设您有一个带有 read 方法的 FileReader 类。我知道类级别的属性可以证明拥有一个实例是合理的。但是，是什么阻止了通过将这些相同的属性拉入相应的 static read 方法的范围内来
sql - ER 关系数据库编码包含弱实体
所以我正在设计一个涉及电影、剧院、销售产品/纪念品的摊位的关系数据库。这是让我感到困惑的问题的一部分: “... 电影院由标识符、名称、地址(街道、市、省)，以及影院的银幕总数。 ... 特许摊位是在
database - er 图显示属性之间的关系
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
search - 将特征与数据库匹配的快速(er)方式
我正在做一个项目，我在图像中有一个特征，描述为一组 X 和 Y 坐标(每个特征 5-10 个点)，这是该特征独有的。我还有一个包含数千个特征的数据库，每个特征都有相同类型的描述符。结果如下所示: my
database-design - ER 建模问题
我有以下问题: 仅使用二元关系，构建实体关系图用于以下描述。包括实体标签、主键字段、关系标签和关系的多重性。 “一家公司经营着几个汽车维修和服务车库，每个车库都有自己的唯一编号 (gargNo)。当车
r - R中索引矩阵的快速(er)方法
最重要的是，我正在寻找一种快速(er)方法来多次设置/索引矩阵: for (i in 1:99000) { subset.data summaryRprof("subsetMatrix.out"
sql - ER 图 - 显示到办公室及其分支机构的交付
对于一个小项目，我正在为一个简单的股票跟踪应用程序创建一个实体关系图。用户故事产品由产品供应商销售。产品由办公室订购并交付给他们。可能需要一次或多次交货才能完成订单。该办事处订购的这些产品依次交付
Laravel ER 图生成器 getAllModelsFromEachDirectory()
当我尝试按照此处的说明 ( https://github.com/beyondcode/laravel-er-diagram-generator ) 操作时，出现以下错误。 Symfony\Compo
entity-relationship - ER 建模子类型如何在数据库中实现？
对不起，如果这太简单了，但我最近发现了很多关于 ER 建模的文档，但所有这些似乎都跳过了实际的实现，我只是想澄清一下。子类型是否只是带有父类(super class)型的外键以及属于子类型的属性的第
MySQL 从 ER 图创建表
我正致力于从 ER 图创建数据库，但我认为我的某些主键和外键不正确。我认为它们不正确的表是部分中的主键和注册表中的 FK 和 PK。我也不认为我正确地执行了我的 FK 约束，因此我无法检测到引用完整性
java - 仅用于审计目的的 ER 建模字符串对象列表
对于给定的 request-id 第三方服务会生成以下内容字符串类型的推荐列表(通常为 5-10 条推荐) 字符串类型的治疗列表(通常为 5-10 次治疗) 字符串类型的服务列表(通常为 5-10
mysql - 我是在标准化之前还是之后创建 ER 图？
我正在学习如何在 MySQL 中创建数据库，理论部分之一是开发 ER 图。我在制作自己的项目时真的需要它吗？如果我想创建一个，我是在关系正常化之后创建它吗？最佳答案 1).您并不被要求这样做。但它绝
mysql - 如何在 ER 图中重新创建层次结构？
我正在学校做这个项目，关于超市数据库，我有一个需要表示的限制，但我不知道如何表示。这是限制: “每个产品都有一个命名类别。没有类别的产品，每个产品只属于一个类别。一个类别可以包含在另一个类别(子类别

首页

博学

6Ren·AI

商城

r - R中索引矩阵的快速(er)方法