R语言多线程运算操作(解决R循环慢的问题)-6ren

R语言多线程运算操作(解决R循环慢的问题)

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章R语言多线程运算操作(解决R循环慢的问题)由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

已经大半年没有更新博客了。。最近都跑去写分析报告半年没有R 。

这次记录下关于R循环（百万级以上）死慢死慢的问题，这个问题去年就碰到过，当时也尝试过多线程，but failed......昨天试了下，终于跑通了，而且过程还挺顺利。

step1

先查下自己电脑几核的，n核貌似应该选跑n个线程，线程不是越多越好，线程个数和任务运行时间是条开口向下的抛物线，最高点预计在电脑的核数上.

detectCores( )检查当前电脑可用核数我的是4所以step2选的是4 。

 
    ? 
   
         library(parallel) 
        
         cl.cores <- detectCores()

step 2

多线程计算。

 
    ? 
   
         setwd( 
         "C:\\Users\\siyuanmao\\Documents\\imdada\\0-渠道投放和新人券联动模型\\测算" 
         ) 
        
         options(scipen=3)   
         ##取消科学计数法 
        
         channel_ad_ios_data<- 
         seq 
         (0,50000,5000) 
        
         channel_ad_android_data<- 
         seq 
         (0,100000,10000) 
        
         library(parallel) 
        
         func <-  
         function 
         (n){ 
         #n=1 
        
         result_data<- 
         read 
         .csv( 
         "发券方案.csv" 
         ,stringsAsFactors=FALSE) 
        
         total_coupon_solution_data<- 
         read 
         .csv( 
         "结果表框架.csv" 
         ,stringsAsFactors=FALSE) 
        
         coupon_solution_data<-subset(result_data,solution==  
         paste 
         ( 
         '方案' 
         ,n,sep= 
         "" 
         )) 
        
         for 
         (i  
         in 
         1:11){ 
         #i=3 
        
         coupon_solution_data$channel_ad_cost[3]<-5000*(i-1) 
        
         for 
         (j  
         in 
         1:11){ 
         #j=5 
        
         coupon_solution_data$channel_ad_cost[4]<-10000*(j-1) 
        
         solution_mark<- 
         paste 
         ( 
         '方案' 
         ,n,i,j,sep= 
         "-" 
         ) 
        
         coupon_solution_data$solution<-solution_mark 
        
         total_coupon_solution_data<-rbind(total_coupon_solution_data,coupon_solution_data) 
        
         } 
        
         } 
        
         print(solution_mark) 
        
         return 
         (total_coupon_solution_data) 
        
         } 
        
         #func(10) 
        
         system. 
         time 
         ({ 
        
         x <- 1:7776 
        
         cl <- makeCluster(4)  
         # 初始化四核心集群 
        
         results <- parLapply(cl,x,func)  
         # lapply的并行版本 
        
         res. 
         df 
         <-  
         do 
         .call( 
         'rbind' 
         ,results)  
         # 整合结果 
        
         stopCluster(cl)  
         # 关闭集群 
        
         }) 
        
         df 
         =as.data.frame(res. 
         df 
         )

原来非多线程的时候，我预计要跑12个小时以上，电脑发出呼呼~~的响声，查了下Python循环会快点，然后改为python版（已经很久没有用了，连个range都不会写，摸索了大半天才改好，但是速度还是慢==），于是改成多线程，运行25分钟就出结果了~~ 。

补充：R语言多线程。

parallel包

包的安装

 
    ? 
   
         install 
         .packages( 
         "parallel" 
         ) 
        
         library(parallel)

包中常用函数

detectCores() 检查当前的可用核数。

clusterExport() 配置当前环境。

makeCluster() 分配核数。

stopCluster() 关闭集群。

parLapply() lapply()函数的并行版本。

其实R语言本来就是一门向量化语言，如果是对于一个向量的操作，使用apply函数一族能获得比较高的效率，相比于for循环，这种高效来自于:

用C实现了for循环。

减少对于data.frame等数据结构等不必要的拷贝。

但是很多时候，如果想更快的话，光apply函数一族还不足够，这时候就能用上多线程.

R语言parallel包可以帮助实现多线程.

parLapply的简单代码实战

检查当前核数

 
    ? 
   
         cl.cores <- detectCores() 
        
         #结果 
        
         > cl.cores 
        
         [1] 8

启动集群和关闭集群

 
    ? 
   
         cl <- makeCluster(4)  
         # 初始化四核心集群 
        
         ###并行任务 
        
         stopCluster(cl)  
         # 关闭集群

parLapply执行多线程计算

 
    ? 
   
         #定义计算平方函数 
        
         square <-  
         function 
         (x) 
        
         { 
        
         return 
         (x^2) 
        
         }

 
    ? 
   
         #利用并行计算计算平方函数 
        
         num <- c(1:3) 
        
         cl <- makeCluster(4)  
         # 初始化四核心集群 
        
         results <- parLapply（cl,num,square） 
         #调用parLapply并行计算平方函数 
        
         final <-  
         do 
         .call( 
         'c' 
         ,results) 
         #整合结果 
        
         stopCluster(cl)  
         # 关闭集群 
        
         #结果 
        
         > final 
        
         [1] 1,4,9

思考：在如此小的计算方式下，开4个核计算是否比开一个核要快。

答案：当然是不一定，因为涉及到调度方式等额外开销，所以不一定快，因为真正并行起作用的地方在于大数据量的计算.

时间开销对比

两段对比代码。

 
    ? 
   
         #定义计算平方函数 
        
         square <-  
         function 
         (x) 
        
         { 
        
         ######### 
        
         #一段冗余代码增加执行时间 
        
         y = 2*x 
        
         if 
         (y <300) 
        
         {z = y} 
        
         else 
        
         {z = x} 
        
         ##########    
        
         return 
         (x^2) 
        
         } 
        
         num <- c(1:10000000)

 
    ? 
   
         #并行计算 
        
         print(system. 
         time 
         ({ 
        
         cl <- makeCluster(4)  
         # 初始化四核心集群 
        
         results <- parLapply（cl,num,square） 
         #调用parLapply并行计算平方函数 
        
         final <-  
         do 
         .call( 
         'c' 
         ,results) 
         #整合结果 
        
         stopCluster(cl)  
         # 关闭集群 
        
         })) 
        
         #结果 
        
         用户  系统  流逝  
        
         7.89  0.27 19.01

 
    ? 
   
         #普通计算 
        
         print(system. 
         time 
         ({ 
        
         results <- lapply（num,square） 
        
         final <-  
         do 
         .call( 
         'c' 
         ,results) 
         #整合结果 
        
         })) 
        
         #结果 
        
         用户  系统  流逝  
        
         29.74  0.00 29.79

显然在数据量比较大的时候，并行计算的时间几乎就是于核数反比。不过，也不是多开几个核就好，注意内存很容易超支的，每个核都分配相应的内存，所以要注意内存开销。出现内存问题的时候，需要检查是否代码是否合理，R语言版本（64位会比32位分配的内存大），核分配是否合理.

上一级环境中变量的引入

R语言里边对于环境变量有着有趣的定义，一层套一层，这里不做深入展开.

类似于在c语言函数中使用全局变量，R在执行并行计算的时候，如果需要计算的函数出现在全局（上一级），那么就需要声明引入这个变量，否则将会报错.

 
    ? 
   
         #定义计算幂函数 
        
         base = 2 
        
         square <-  
         function 
         (x) 
        
         { 
        
         return 
         (x^base) 
        
         } 
        
         num <- c(1:1000000)

 
    ? 
   
         #利用并行计算计算幂函数 
        
         cl <- makeCluster(4)  
         # 初始化四核心集群 
        
         results <- parLapply（cl,num,square） 
         #调用parLapply并行计算平方函数 
        
         final <-  
         do 
         .call( 
         'c' 
         ,results) 
         #整合结果 
        
         stopCluster(cl)  
         # 关闭集群 
        
         #结果报错 
        
         Error  
         in 
         checkForRemoteErrors(val) :  
        
         4 nodes produced errors; first error: 找不到对象 
         'base'

 
    ? 
   
         #利用并行计算计算幂函数 
        
         cl <- makeCluster(4)  
         # 初始化四核心集群 
        
         clusterExport(cl, 
         "base" 
         ,envir = environment()) 
        
         results <- parLapply（cl,num,square） 
         #调用parLapply并行计算平方函数 
        
         final <-  
         do 
         .call( 
         'c' 
         ,results) 
         #整合结果 
        
         stopCluster(cl)  
         # 关闭集群 
        
         #结果 
        
         > final 
        
         [1] 1,4,9,16,25.......

foreach包

除了parallel包以外，还有针对并行for循环的foreach包，foreach()的使用也与parLapply()类似，两个功能也类似，其中遇到的问题也类似.

包的安装

 
    ? 
   
         install 
         .packages( 
         "foreach" 
         ) 
        
         library(parallel)

foreach的使用

 
    ? 
   
         #定义计算幂函数 
        
         square <-  
         function 
         (x) 
        
         { 
        
         return 
         (x^2) 
        
         }

非并行情况的使用:

参数中的combine就是整合结果的函数，可以是c，可以是rbind，也可以是+等。

 
    ? 
   
         results = foreach(x = c(1:3),.combine =  
         'c' 
         ) % 
         do 
         % square(x) 
        
         #结果 
        
         > results 
        
         [1] 1,4,9

并行情况的使用:

注意并行情况的时候，需要与parallel包进行配合，引入library(doParallel)。同时%do%需要改成%dopar%。另外与parallel包不一样的是，需要多加一句registerDoParallel(cl)来注册核进行使用.

 
    ? 
   
         cl <- makeCluster(4) 
        
         registerDoParallel(cl) 
        
         results = foreach(x = c(1:100000),.combine =  
         'c' 
         ) %dopar% square(x) 
        
         stopCluster(cl)

上一级环境中变量的引入

同parallel包并行计算前需要clusterExport()来引入全局变量一样，foreach也同样需要声明，不同的是，foreach声明方式直接写在foreach()的参数export里边.

 
    ? 
   
         #定义计算幂函数 
        
         base = 2 
        
         square <-  
         function 
         (x) 
        
         { 
        
         return 
         (x^base) 
        
         } 
        
         cl <- makeCluster(4) 
        
         registerDoParallel(cl) 
        
         results = foreach(x = c(1:100000),.combine =  
         'c' 
         ,. 
         export 
         = 
         'base' 
         ) %dopar% square(x) 
        
         stopCluster(cl)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我。如有错误或未考虑完全的地方，望不吝赐教.

原文链接：https://blog.csdn.net/u011454283/article/details/77920833 。

最后此篇关于R语言多线程运算操作(解决R循环慢的问题)的文章就讲到这里了,如果你想了解更多关于R语言多线程运算操作(解决R循环慢的问题)的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：易语言获取画板可用高度与宽度的方法

文章推荐： Python搭建Gitee图床的示例代码

文章推荐： Python读取和存储yaml文件的方法

文章推荐： R语言-summary()函数的用法解读

问题
关闭。这个问题是off-topic .它目前不接受答案。想要改进这个问题？ Update the question所以它是on-topic用于堆栈溢出。关闭 12 年前。 Improve thi
问题
我有一个动态网格，其中的数据功能需要正常工作，这样我才能逐步复制网格中的数据。假设在第 5 行中，我输入 10，则从第 6 行开始的后续行应从 11 开始读取，依此类推。如果我转到空白的第一行并输入
问题
我有一个关于我的按钮消失的问题我已经把一个图像作为我的按钮用这个函数动画 function example_animate(px) { $('#cont
php - 将现有帐户链接到 Facebook - 问题/问题
我有一个具有 Facebook 连接和经典用户名/密码登录的网站。目前，如果用户单击 facebook_connect 按钮，系统即可运行。但是，我想将现有帐户链接到 facebook，因为用户可以选
iOS map View 问题/问题
我有一个正在为 iOS 开发的应用程序，该应用程序执行以下操作加载和设置注释并启动核心定位和缩放到位置。 map 上有很多注释，从数据加载不会花很长时间，但将它们实际渲染到 map 上需要一段时间。
ruby-on-rails - Heroku，问题/问题
我被推荐使用 Heroku for Ruby on Rails 托管，到目前为止，我认为我真的会喜欢它。只是想知道是否有人可以帮助我找出问题所在。我按照那里的说明在该网站上创建应用程序，创建并提交
Android WebView setCertificate 问题 SSL 问题
我看过很多关于 SSL 错误的帖子和信息，我自己也偶然发现了一个。我正在尝试使用 GlobalSign CA BE 证书通过 Android WebView 访问网页，但出现了不可信错误。对于大多
c++ - Glew 问题， Unresolved external 问题
我想开始使用 OpenGL 3+ 和 4，但我在使用 Glew 时遇到了问题。我试图将 glew32.lib 包含在附加依赖项中，并且我已将库和 .dll 移动到主文件夹中，因此不应该有任何路径问题。
问题？
我已经盯着这两个下载页面的源代码看了一段时间，但我似乎找不到问题。我有两个下载页面，一个 javascript 可以工作，一个没有。工作:http://justupload.it/v/lfd7不是
jquery - 初级 jQuery 问题(FF/IE 问题)
我一直在使用 jQuery，只是尝试在单击链接时替换文本字段以及隐藏/显示内容项。它似乎在 IE 中工作得很好，但我似乎无法让它在 FF 中工作。我的 jQuery: $(function() {
Android ndk 问题 socket 和 std 问题
我正在尝试为 NDK 编译套接字库，但出现以下两个错误: error: 'close' was not declared in this scope 和 error: 'min' is not a m
java - Selenium 问题 : Select. deselectAll() 导致 iframe 问题
我正在使用 Selenium 浏览器自动化框架测试网站。在测试过程中，我切换到特定的框架，我们将其称为“frame_1”。后来，我在 Select 类中使用了 deselectAll() 方法。不久之
连接到 Heroku PostgreSQL 的 Python 问题 - SSL 问题
我正在尝试通过 Python 创建到 Heroku PostgreSQL 数据库的连接。我将 Windows10 与 Python 3.6.8 和 PostgreSQL 9.6 一起使用。我从“ht
python - 在 Pandas 中创建新列的 np.where() 问题(可能是 NaN 问题？)
我有一个包含 2 列的数据框，我想根据两列之间的比较创建第三列。所以逻辑是:第 1 列 val = 3，第 2 列 val = 4，因此新列值什么都没有第 1 列 val = 3，第 2 列 va
css - 如何调试 iphone 5 中的 css 问题(ui 问题)？
我想知道如何调试 iphone 5 中的 css 问题。我尝试使用 firelite 插件。但是从纵向旋转到横向时，火石占据了整个屏幕。有没有其他方法可以调试 iphone 5 中的 css 问题
CSS 问题，input[id]+label，:hover, 和 :checked 问题
所以我有点难以理解为什么这不起作用。我正在尝试替换我正在处理的示例站点上的类别复选框。我试图让它做以下事情:未选中时以一种方式出现，悬停时以另一种方式出现(选中或未选中)选中时以第三种方式出现(而不是
javascript - 1 javascript/css 问题 2 perl cgi 问题
Javascript CSS 问题: 我正在使用一个文本框来写入一个 div。我使用以下 javascript 获取文本框来执行此操作: function process_input(){
algorithm - NP 中的语言(问题)和 P 中的语言(问题)之间的多项式时间减少
你好，我很难理解 P、NP 和多项式时间缩减的主题。我试过在网上搜索它并问过我的一些 friend ，但我没有得到任何好的答案。我想问一个关于这个话题的一般性问题: 设 A,B 为 P 中的语言(或
python-3.x - 该算法(解决 leetcode 问题 650)(问题 2)的时间复杂度是多少？
你好，我一直在研究 https://leetcode.com/problems/2-keys-keyboard/并想到了这个动态规划问题。您从空白页上的“A”开始，完成后得到一个数字 n，页面上应该
ios - Xcode Server Bot 问题 : warning. 生成服务错误。问题:路径 'some/path' 的存档格式不正确
我正在使用 Cocoapods 和 KIF 在 Xcode 服务器上运行持续集成。我已经成功地为一个项目设置了它来报告每次提交。我现在正在使用第二个项目并收到错误: Bot Issue: warnin

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城