r - doParallel 而不是 apply-6ren

r - doParallel 而不是 apply

转载作者：行者123 更新时间：2023-12-02 18:32:30

27

4

我一直在使用apply将data.frame的每一行提交到R中的function使用Windows 10。这种方法有效。然而，随着函数变得更加复杂并且数据集更大，这种方法变得不可行。因此，我希望使用并行处理将 data.frame 的每一行提交并运行到 function。

我之前曾在我的 Windows 10 笔记本电脑和 Unix 集群上使用过 doParallel，但仅用于运行多个外部 R 文件。切勿将 data.frame 的单独行提交到一个 R 文件中的function。有人可以告诉我如何实现后者吗？如果必须的话，我想我可以在下面的代码中为 data.frame master.iter 的每一行创建单独的 R 文件，但是一定有更简单的方法。

这是一个简单的示例，它与 apply 一起运行并获得所需的结果:

master.iter <- read.table(text = '
    scenario  aaa   bbb   ccc   ddd   eee
       1       1     5     0     20    10
       2       1    10     0   2000  1000
', header = TRUE, stringsAsFactors = FALSE)

master.function <- function(scenario, aaa, bbb, ccc, ddd, eee) {

  scenario <- as.numeric(c(scenario))
  aaa <- as.numeric(c(aaa))
  bbb <- as.numeric(c(bbb))
  ccc <- as.numeric(c(ccc))
  ddd <- as.numeric(c(ddd))
  eee <- as.numeric(c(eee))
  AAA <- seq(aaa,bbb,1)
  BBB <- AAA * ddd
  CCC <- AAA * eee

  my.table <- data.frame(AAA = AAA,
                         BBB = BBB,
                         CCC = CCC)

  output.list <- list(scenario = scenario,
                      aaa = aaa, bbb = bbb, ccc = ccc, ddd = ddd, eee = eee,
                      my.table = my.table)

  master_output <- do.call(cbind, output.list)

  return = list(master_output = master_output)
}

function.output <- apply(master.iter, 1, function(x) {master.function( x[1],  x[2],  x[3],  x[4],  x[5],  x[6])})

master.df <- do.call("rbind", lapply(function.output, as.data.frame))
colnames(master.df) <- names(function.output[[1]]$master_output)

desired.result <- read.table(text = '
   scenario aaa bbb ccc  ddd  eee my.table.AAA my.table.BBB my.table.CCC
          1   1   5   0   20   10            1           20           10
          1   1   5   0   20   10            2           40           20
          1   1   5   0   20   10            3           60           30
          1   1   5   0   20   10            4           80           40
          1   1   5   0   20   10            5          100           50
          2   1  10   0 2000 1000            1         2000         1000
          2   1  10   0 2000 1000            2         4000         2000
          2   1  10   0 2000 1000            3         6000         3000
          2   1  10   0 2000 1000            4         8000         4000
          2   1  10   0 2000 1000            5        10000         5000
          2   1  10   0 2000 1000            6        12000         6000
          2   1  10   0 2000 1000            7        14000         7000
          2   1  10   0 2000 1000            8        16000         8000
          2   1  10   0 2000 1000            9        18000         9000
          2   1  10   0 2000 1000           10        20000        10000
', header = TRUE)

这是我通常用来将单独的 R 文件提交到 Ubuntu 集群 的 R 代码。我尝试修改下面的R代码来解决上述问题。但是，我一直无法找到解决方案。

setwd('/home/ubuntu/')
library(doParallel)
detectCores()
my.AWS.n.cores <- detectCores()
registerDoParallel(my.cluster <- makeCluster(my.AWS.n.cores))
folderName <- 'R_files_a'
files <- list.files(folderName, full.names=TRUE)
start.time <- Sys.time()
foreach(file = files, .errorhandling = "remove") %dopar% {
  source(file)
}
stopCluster(my.cluster)
end.time <- Sys.time()
total.time.c <- end.time-start.time
total.time.c

最佳答案

我们可以使用collapse

library(collapse)
dapply(master.iter, MARGIN = 1, function(x) {
    master.function( x[1],  x[2],  x[3],  x[4],  x[5],  x[6])
      }, parallel = TRUE)

-输出

 [1]     1     1     1     1     1     1     1     1     1     1     5     5     5     5     5     0     0     0     0     0    20    20    20    20    20
 [26]    10    10    10    10    10     1     2     3     4     5    20    40    60    80   100    10    20    30    40    50     2     2     2     2     2
 [51]     2     2     2     2     2     1     1     1     1     1     1     1     1     1     1    10    10    10    10    10    10    10    10    10    10
 [76]     0     0     0     0     0     0     0     0     0     0  2000  2000  2000  2000  2000  2000  2000  2000  2000  2000  1000  1000  1000  1000  1000
[101]  1000  1000  1000  1000  1000     1     2     3     4     5     6     7     8     9    10  2000  4000  6000  8000 10000 12000 14000 16000 18000 20000
[126]  1000  2000  3000  4000  5000  6000  7000  8000  9000 10000

关于r - doParallel 而不是 apply，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69258578/

27

4

0

文章推荐： scala - Spark : Performant way to find top n values

文章推荐： css - 为什么 elastic beanstalk 不为 django 管理站点呈现 css？

文章推荐： r - 查找一个字符串是否出现在另一个字符串之前

r - doParallel，集群与核心
registerDoParallel 中的集群和核心有什么区别？使用 doParallel 包时？我的理解是否正确，在单台机器上这些是可以互换的，我会得到相同的结果: cl library(doP
R doParallel foreach工作超时错误并且永远不会返回
以下问题是与此处描述的问题相关的非常详细的问题。 Previous Question 使用在 R 版本 3.2.3 的 c4.8xlarge(36 核)上启动的 Ubuntu Server 14.04
R doParallel 进度条来监控已完成的作业
我正在尝试编写一个具有多线程功能的 CRAN 包。我使用 doSNOW 实现了完美的解决方案，但该软件包已被 CRAN 团队标记为“取代”，他们要求我切换到 doParallel 解决方案。这很好，但
r - doParallel 与自己创建的函数
我在 R 中创建了一个顺序模拟来迭代一个过程 10,0000 次。这需要大约 70 分钟，所以我决定与 doParallel 包并行尝试相同的事情。我的 foreach 循环调用了一个名为“inv.
R:在 doParallel/降雪中制作集群挂起
我在局域网上有两台服务器，全新安装了 Centos 6.4 minimum 和 R 3.0.1。两台计算机都安装了 doParallel、snow 和 snowfall 包。服务器可以通过 ssh
r - 使用 doParallel 时的范围问题
我正在尝试使用 doParallel 包来估计多个非参数模型。我的问题似乎与 np 包有关。看看这个可重现的例子: library(np) library(doParallel) df 修复
r - doParallel 而不是 apply
我一直在使用apply将data.frame的每一行提交到R中的function使用Windows 10。这种方法有效。然而，随着函数变得更加复杂并且数据集更大，这种方法变得不可行。因此，我希望使用并
r - foreach、doParallel 和随机生成
考虑使用并行 foreach 生成随机值的非常基本(且效率低下)的代码: cl <- makeCluster(2) registerDoParallel(cl) foreach(i = 1:100)
r - doParallel 而不是 apply
我一直在使用apply将data.frame的每一行提交到R中的function使用Windows 10。这种方法有效。然而，随着函数变得更加复杂并且数据集更大，这种方法变得不可行。因此，我希望使用并
RPostgreSQL 连接在使用 doParallel clusterEvalQ 启动后立即过期
我正在尝试设置一个并行任务，其中每个工作人员都需要进行数据库查询。我正在尝试为每个工作人员设置一个连接，如 this question 中所示但每次我尝试它都会返回无论我注册了多少 worker 。
r - 使用 doParallel 时如何获取节点或进程 ID？
我正在一个 12 节点集群上运行一个并行进程。并且想知道是否有办法在 foreach 期间获取节点 ID 或节点编号或节点名称称呼？像这样的东西: foreach(i = 1:12, .combi
r - GPU 上的 foreach doparallel
我有这段代码用于并行写入我的结果。我在 R 中使用 foreach 和 doParallel 库。 output_location='/home/Desktop/pp/' librar
r - R 中的并行处理 doParallel foreach
我编写了一个运行良好的脚本，但它似乎并未进行并行处理。我尝试将内核从 3 个更改为 16 个，但生成数据的速度没有改变。谁能告诉我我做错了什么以及如何让它发挥作用？ setwd("E:/Infecti
r - 如果使用 doParallel 和配方，则插入符号错误
当我将 caret 与新配方包一起使用时，即 caret::train.recipe()，如果 doParallel 也用于注册并行后端，我会收到一条错误消息。附件是一个可重现的示例(插入符号文档中官
r - doParallel 和 foreach 无法并行化合并操作
我正在尝试合并一个大 data.frame用一个小的，并并行计算。下面的代码完美运行，最大化了我机器的所有内核: len <- 2000000 set.seed(666) dat = paste(sa
r - 使用 doParallel + foreach 显示 progress_bar
我正在使用发布的示例代码 here使用 doParallel + foreach 显示 progress_bar(来自 progress 包)。然而，那里的解决方案使用 doSNOW(例如我用于测试的
r - 为多个操作系统使用并行或 doParallel 的自定义包作为 CRAN 包
我正在为 R 构建一个包，我希望它能够跨平台。我在Linux下开发，函数mclapply将从 parallel 开始使用包裹。 Windows(使用 doParallel )不支持此软件包。我真的很喜
r - "un-register"一个 doParallel 集群
如果我运行 foreach... %dopar%在不注册集群的情况下，foreach 会引发警告，并按顺序执行代码: library("doParallel") foreach(i=1:3) %dop
r - 使用 doparallel 在 foreach 循环内循环
我有一个包含循环的函数 myfun = function(z1.d, r, rs){ x = z1.d[,r] or.d = order(as.vector(x), decreasing=TR
R doParallel foreach 为独立 worker 提供错误处理
我必须运行大量随机森林模型，因此我想在我的 8 核服务器上使用 doParallel 来加快进程。然而，某些模型需要比其他模型更长的时间，甚至可能会抛出错误。我想并行运行 8 个模型，如果一个模型抛

首页

博学

6Ren·AI

商城

r - doParallel 而不是 apply