r - 如何为多核处理重写我的 R 代码？-6ren

r - 如何为多核处理重写我的 R 代码？

转载作者：行者123 更新时间：2023-12-02 06:22:19

我有 R 代码需要进入“并行化”阶段。我是新手，所以如果我使用了错误的术语，请原谅我。我有一个过程，一次只需要一个一个地通过一个人，然后最后对每个人进行平均。这个过程对每个人来说都是完全一样的(它是一个布朗桥)，我只需要为超过 300 个人做这个。所以，我希望这里有人可能知道如何更改我的代码以便生成它？或并行化？或者无论用什么词来确保我现在可以访问的 48 个 CPU 可以帮助减少用我的小笔记本电脑计算这个所需的 58 天。在我的脑海里，我只会派出 1 个人到一个处理器。让它通过脚本运行，然后发送另一个……如果这有意义的话。

下面是我的代码。我试图在其中发表评论，并指出了我认为代码需要更改的地方。

for (n in 1:(length(IDNames))){ #THIS PROCESSES THROUGH EACH INDIVIDUAL 

#THIS FIRST PART IS JUST EXTRACTING THE DATA FROM MY TWO INPUT FILES.  
#I HAVE ONE FILE WITH ALL THE LOCATIONS AND THEN ANOTHER FILE WITH A DATE RANGE.  
#EACH INDIVIDUAL HAS DIFFERENT DATE RANGES, THUS IT HAS TO PULL OUT EACH INDIVIDUALS 
#DATA SET SEPARATELY AND THEN RUN THE FUNCTION ON IT.

    IndivData = MovData[MovData$ID==IDNames[n],]
    IndivData = IndivData[1:(nrow(IndivData)-1),]
    if (UseTimeWindow==T){
      IndivDates = dates[dates$ID==IDNames[n],]
      IndivData = IndivData[IndivData$DateTime>IndivDates$Start[1]&IndivData$DateTime<IndivDates$End[1],]
    }
    IndivData$TimeDif[nrow(IndivData)]=NA

    ########################
#THIS IS THE PROCESS WHERE I THINK I NEED THAT HAS TO HAVE EACH INDIVIDUAL RUN THROUGH IT

    BBMM <- brownian.bridge(x=IndivData$x, y=IndivData$y,
    time.lag = IndivData$TimeDif[1:(nrow(IndivData)-1)], location.error=20,
    area.grid = Grid, time.step = 0.1)

  #############################
  # BELOW IS JUST CODE TO BIND THE RESULTS INTO A GRID DATA FRAME I ALREADY CREATED.  
  #I DO NOT UNDERSTAND HOW THE MULTICORE PROCESSED CODE WOULD JOIN THE DATA BACK 
  #WHICH IS WHY IVE INCLUDED THIS PART OF THE CODE.  

    if(n==1){   #creating a data fram with the x, y, and probabilities for the first individual
      BBMMProbGrid = as.data.frame(1:length(BBMM[[2]]))
      BBMMProbGrid = cbind(BBMMProbGrid,BBMM[[2]],BBMM[[3]],BBMM[[4]])
      colnames(BBMMProbGrid)=c("GrdId","X","Y",paste(IDNames[n],"_Prob", sep=""))
    } else {                #For every other individual just add the new information to the dataframe
      BBMMProbGrid = cbind(BBMMProbGrid,BBMM[[4]])
      colnames(BBMMProbGrid)[n*2+2]=paste(IDNames[n],"_Prob", sep ="")
    }# end if  


    } #end loop through individuals

最佳答案

也不知道为什么这个被否决了。我认为 foreach包裹就是你想要的。前几个 pdf 中包含非常清晰的有用信息。基本上把你想为每个人做的事情写成一个函数。然后使用 foreach 将一个人的数据发送到一个节点以运行该函数(同时将另一个人发送到另一个节点等)，然后它使用 rbind 之类的东西编译所有结果。我已经用过几次，效果很好。

编辑:我并没有打算重新编写您的代码，因为我认为您已经做到了这一点，您将很容易掌握将其包装到一个函数中然后使用一个 liner foreach 的技能。

编辑 2:评论太长无法回复您。

我想既然你已经对代码有了足够的了解，你就可以把它变成一个函数 :) 如果你还在研究这个，考虑写一个 for 循环来循环你的代码可能会有所帮助主题并进行该主题所需的计算。然后，那个 for 循环就是你想要的函数。我认为在您的代码中，一切都归结为“area.grid”。然后你可以摆脱你的大部分 [n] 因为数据每次迭代只有一次子集。

也许:

pernode <- function(MovData) {
    IndivData = MovData[MovData$ID==IDNames[i],]
    IndivData = IndivData[1:(nrow(IndivData)-1),]
    if (UseTimeWindow==T){
                         IndivDates = dates[dates$ID==IDNames,]
                         IndivData = IndivData[IndivData$DateTime>IndivDates$Start[1]
                         &IndivData$DateTime<IndivDates$End[1],]
                         }
    IndivData$TimeDif[nrow(IndivData)]=NA

    BBMM <- brownian.bridge(x=IndivData$x, y=IndivData$y,
    time.lag = IndivData$TimeDif[1:(nrow(IndivData)-1)], location.error=20,
    area.grid = Grid, time.step = 0.1)

return(BBMM)
}

然后是这样的:

library(doMC)
library(foreach)
registerDoMC(cores=48) # or perhaps a few less than all you have

system.time(
  output <- foreach(i = 1:length(IDNames)), .combine = "rbind", .multicombine=T,
 .inorder = FALSE) %dopar% {pernode(i)}
)

如果没有一些测试数据，很难说是不是这样，让我知道你的进展情况。

关于r - 如何为多核处理重写我的 R 代码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7087030/

文章推荐： Django ModelForm 字段 - 必须有多个？

文章推荐： c - 如何在我的程序的多个文件中共享结构？

文章推荐： php - 无法在 PHP 中访问表单数据

node.js - Chrome 的跟踪事件分析工具中的自上而下(树)、自上而下(重)和自下而上(重)有什么区别
我正在尝试使用谷歌浏览器的 Trace Event Profiling Tool分析我正在运行的 Node.js 应用程序。选择点样本后，我可以在三种 View 之间进行选择: 自上而下(树) 自上而
android - 重 ContentProvider 查询和 ListView
对于一个可能是菜鸟的问题，我们深表歉意，但尽管在 SO 上研究了大量教程和其他问题，但仍找不到答案。我想做的很简单:显示一个包含大量数据库存储字符串的 Android ListView。我所说的“很
css - 基础 5 div 重
我已经开始了一个新元素的工作，并决定给 Foundation 5 一个 bash，看看它是什么样的。在创建带有水平字段的表单时，我在文档中注意到的第一件事是它们使用大量 div 来设置样式。所以我在下
.net - 重 CPU 负载下的跨线程 BeginInvoke 阻塞
我有一个 Windows 窗体用户控件，其中包含一个使用 BeginInvoke 委托(delegate)调用从单独线程更新的第 3 方图像显示控件。在繁重的 CPU 负载下，UI 会锁定。当我附加
javascript - 什么是测试 Dom 重 js 的好方法？
我有一堆严重依赖dom元素的JS代码。我目前使用的测试解决方案依赖于 Selenium ，但 AFAIK 无法正确评估 js 错误(addScript 错误不会导致您的测试失败，而 getEval 会
Java Swing 重/慢 paintComponent - 有什么建议吗？
我正在制作一款基于滚动 2D map /图 block 的游戏。每个图 block (存储为图 block [21][11] - 每个 map 总共 231 个图 block )最多可以包含 21 个
javascript - 在网页上 - 如何显示(轻)图像并在客户端下载后者时将其替换为(重)图像？
考虑到以下情况，我是前端初学者: 某个 HTML 页面应该包含一个沉重的图像(例如 - 动画 gif)，但我不想强制客户缓慢地等待它完全下载才能享受一个漂亮的页面，而是我更愿意给他看一个轻量级图像(例
python - 重 I/O 和 python 多处理/多线程
我正在设计一个小软件，其中包括: 在互联网上获取资源，一些用户交互(资源的快速编辑)，一些处理。我想使用许多资源(它们都列在列表中)来这样做。每个都独立于其他。由于编辑部分很累，我想让用户(可能
c# - 重 I/O 操作中的 Parallel.ForEach 与异步 For 循环
我想比较两个理论场景。为了问题的目的，我简化了案例。但基本上它是您典型的生产者消费者场景。 (我关注的是消费者)。我有一个很大的Queue dataQueue我必须将其传输给多个客户端。那么让我们
python - K 重 CV 的变体，其中 size(test_set) > N/K
我有一个二元分类问题，标签 0 和 1(少数)存在巨大不平衡。由于测试集带有标签 1 的行太少，因此我将训练测试设置为至少 70-30 或 60-40，因此仍然有重要的观察结果。由于我没有过多地衡量准

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 如何为多核处理重写我的 R 代码？