R foreach : Read and manipulate multiple files in parallel-6ren

R foreach : Read and manipulate multiple files in parallel

转载作者：行者123 更新时间：2023-12-04 03:45:45

25

4

我有 500 个包含 2000 个 csv 文件的 tar.xz 文件。我需要一次解压几个 tar 文件(因为磁盘空间)，将它们处理成 data.table，从磁盘中删除 csv 文件，然后将结果保存为 RDS，然后再继续下几个 tar 文件。

我的函数在串行模式下运行良好，但在并行模式下它会在内核之间混淆文件。这是为什么？

一些示例数据:

    for(j in 1:5){
     for(i in 1:5){
      a<-df[sample(x = 1:nrow(df), size = 50, replace = TRUE),]
      write.csv(a,paste0("seed_",i,".csv"))
      lf<-list.files(pattern=".csv")
                  }
     tar(tarfile = paste0("seed_",j,".tar"),files = lf,compression = c("xz"), tar="tar")
                 }

使用 foreach 的示例代码

require(dplyr)
require(tidyr)
require(foreach)
require(doParallel)
require(magrittr)

#List all tar files in directory
list_of_files<-list.files(pattern = ".tar")

  packsINeed<-c("vroom","magrittr","dplyr","tidyr","doParallel")
    
  #Start for loop

myCluster<-makeCluster(6,type="PSOCK")
registerDoParallel(myCluster) 

  foreach(i= 1:NROW(list_of_files),.packages = packsINeed)%dopar%{

print(paste(list_of_files[i], "which is", i, "of", NROW(list_of_files) ))

print("2. Untar .csv files inside")
 untar(tarfile = list_of_files[i], exdir = "tempOutputFiles")



 print("#3. Read in files and add up two columns")
df<-vroom::vroom(list.files("tempOutputFiles/$.csv"), id="path")

df$A<-df$B+df$C

    print("#4. save RDS")

saveRDS(object = df, file = paste0(tools::file_path_sans_ext(list_of_files[i], compression = TRUE),".rds"))

 print("#5. Clean up files")

.files<-list.files("tempOutputFiles",pattern=".csv")

    file.remove(basename(.files))
}

使用 mclapply - 行为相同

require(dplyr)
require(tidyr)
require(foreach)
require(doParallel)
require(magrittr)

#List all tar files in directory
list_of_files<-list.files(pattern = ".tar")

myParFun<-fun(文件名){

print(paste(filename))

print("2. Untar all .csv files inside")
 untar(tarfile = filename, exdir = "tempOutputFiles")



 print("#3. Read in files and add up two columns")
df<-vroom::vroom(list.files("tempOutputFiles/$.csv"), id="path")

df$A<-df$B+df$C

    print("#4. save RDS")

saveRDS(object = df, file = paste0(tools::file_path_sans_ext(filename, compression = TRUE),".rds"))

 print("#5. Clean up files")

   .files<-list.files("tempOutputFiles",pattern=".csv")

    file.remove(.files)
}

mclapply(FUN=myParFun, list_of_files, mc.cores=4)

根据 Waldi 的评论，我为 list_of_files 中的每个文件创建了一个目录，现在它可以正常工作了。但是有打呼噜的方法吗？例如使用 tempdir？

最佳答案

正如评论中所建议的，下面的代码为每个进程/tar 文件创建一个目录，解压缩，将 CSV 合并到一个 .rds 文件中并删除它们。
请注意，vroom 似乎需要 altrep = FALSE 参数来避免 permission denied error删除时。

# Generate sample tars for test
write.csv(mtcars,'file1.csv')
write.csv(mtcars,'file2.csv')
write.csv(iris,'file3.csv')
write.csv(iris,'file4.csv')
tar('tar1.tar',files=c('file1.csv','file2.csv'),tar="tar")
tar('tar2.tar',files=c('file3.csv','file4.csv'),tar="tar")

require(dplyr)
require(tidyr)
require(foreach)
require(doParallel)
require(magrittr)

#List all tar files in directory
list_of_files<-list.files(pattern = "\\.tar")

packsINeed<-c("vroom","magrittr","dplyr","tidyr","doParallel")

#Start for loop

myCluster<-makeCluster(2,type="PSOCK")
registerDoParallel(myCluster) 

foreach(i= 1:NROW(list_of_files),.packages = packsINeed)%dopar%{
  print(paste(list_of_files[i], "which is", i, "of", NROW(list_of_files) ))
  
  print("2. Untar .csv files inside")
  fileout <- tools::file_path_sans_ext(list_of_files[i], compression = TRUE)
  exdir <- paste0("temp",fileout)
  untar(tarfile = list_of_files[i], exdir = exdir)
  
  print("#3. Read in files and add up two columns")
  df<-vroom::vroom(file.path(exdir,dir(exdir,"*.csv")),altrep = FALSE)
  
  # df$A<-df$B+df$C   # These columns don't exist in mtcars used as example
  
  print("#4. save RDS")
  
  saveRDS(object = df, file = file.path(exdir,paste0(fileout,".rds")))
  
  print("#5. Clean up files")
  
  .files<-list.files(exdir,pattern="\\.csv")
  
  file.remove(file.path(exdir,.files))
}

不确定 .rds 应该去哪里，所以暂时留在临时文件夹中。

关于R foreach : Read and manipulate multiple files in parallel，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65168930/

25

4

0

文章推荐： vb.net - 如何用x个字符分割字符串

文章推荐： haskell - 尝试实现二叉树搜索

jquery - 从文件输入中获取文件名或文本 multiple=multiple
我正在尝试设计我的输入:文件。以下 SO 问题让我完成了 95% 的任务。区别在于我使用的是 HTML5 multiple=multiple 属性。 How to style "input file"
Python Pandas : Store multiple time series of variable length for multiple attributes for multiple users
我一直在进行一项实验，其中多个调查参与者使用可穿戴技术聆听多首音乐来跟踪多条信息，两个例子是 BPM(心率)和 T(体温)。目标是衡量每首音乐(以用户反馈为特征)对人类情感的影响。目前，所有数据都
PHP : multiple inputs into other multiple inputs
我使用 jquery 添加/删除输入我使用append为日期/收入添加多个Tr 我还使用另一个附加来添加多个 td 以获取同一日期 Tr 中的收入我添加多个日期输入，并在此表中添加多个收入输入我
安卓工作室 : Multiple APKs for Multiple Modules
在 Android 中，有一种方法可以为项目中的所有模块生成签名的 APK。例如。我有以下项目 Project -- Library Module -- Module 1 -- Modul
mysql - 数据库设计: How to query multiple to multiple table
我有一个用于网站展示的系统。展览数据可能来自差异表中的多个数据。喜欢这个设计: Table [ExhibitionType] used for differentiate category. Ta
ios - 什么是最佳实践 : Multiple UIViews or Multiple UIViewControllers
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
iOS : Handle multiple uilocalnotification with multiple same viewcontroller
我正在使用 UILocalnotification...收到通知时，当应用程序处于事件模式时我打开 viewcontroller...但是如果同时收到多个通知...我如何打开多个 viewcontro
PHP/MySQL : UPDATE multiples values with multiples WHERE
我遇到的问题是一个策略浏览器游戏，它有 7 种类型的值。问题如下: 我在 $_POST 中获得了 7 个不同的值，包括从索引 unit_1 到索引 unit_7。这 7 个值是 0 到 20 之间的整
python : How to search for multiple paterns in multiple files
这个问题已经有答案了: Search Large Text File for Thousands of strings (3 个回答) 已关闭10 年前。我想在多个文件上“grep”多个正则表达式。
javascript - 大型数据集的单个 + SQL 查询搜索
我正在尝试根据进行搜索我通过运行代码从 select 中获取值: for($i=0;$i= '$age_from' AND users.user_age = '$age_from' AND u

首页

博学

6Ren·AI

商城

R foreach : Read and manipulate multiple files in parallel