r - 在 R 中下载多个文件的更快方法-6ren

r - 在 R 中下载多个文件的更快方法

转载作者：行者123 更新时间：2023-12-05 01:23:24

25

4

我用 R 编写了一个小型下载器，以便一次性从远程服务器下载一些日志文件:

file_remote <- fun_to_list_URLs()
file_local <- fun_to_gen_local_paths()
credentials <- "usr/pwd"

downloader <- function(file_remote, file_local, credentials) {
  data_bin <- RCurl::getBinaryURL(
    file_remote,
    userpwd = credentials,
    ftp.use.epsv = FALSE,
    forbid.reuse = TRUE
  )
  
  writeBin(data_bin, file_local)
}
  
purrr::walk2(
  file_remote,
  file_local,
  ~ downloader(
    file_remote = .x,
    file_local = .y,
    credentials = credentials
  )
)

这有效，但速度很慢，特别是与某些 FTP 客户端(如 WinSCP)相比，下载 64 个日志文件，每个 2kb，需要几分钟。

在 R 中下载大量文件是否有更快的方法？

最佳答案

curl 包有一种执行异步请求的方法，这意味着下载是同时执行的，而不是一个接一个地执行。特别是对于较小的文件，这应该可以大大提高性能。这是执行此操作的准系统功能

# total_con: max total concurrent connections.
# host_con: max concurrent connections per host.
# print: print status of requests at the end.
multi_download <- function(file_remote, 
                           file_local,
                           total_con = 1000L, 
                           host_con  = 1000L,
                           print = TRUE) {
  
  # check for duplication (deactivated for testing)
  # dups <- duplicated(file_remote) | duplicated(file_local)
  # file_remote <- file_remote[!dups]
  # file_local <- file_local[!dups]
  
  # create pool
  pool <- curl::new_pool(total_con = total_con,
                         host_con = host_con)
  
  # function performed on successful request
  save_download <- function(req) {
    writeBin(req$content, file_local[file_remote == req$url])
  }
  
  # setup async calls
  invisible(
    lapply(
      file_remote, function(f) 
        curl::curl_fetch_multi(f, done = save_download, pool = pool)
    )
  )
  
  # all created requests are performed here
  out <- curl::multi_run(pool = pool)
  
  if (print) print(out)
  
}

现在我们需要一些测试文件来将其与您的基准方法进行比较。我使用来自约翰霍普金斯大学 GitHub 页面的 covid 数据，因为它包含许多应该与您的文件类似的小 csv 文件。

file_remote <- paste0(
  "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/",
  format(seq(as.Date("2020-03-03"), as.Date("2022-06-01"), by = "day"), "%d-%m-%Y"),
  ".csv"
)
file_local <- paste0("/home/johannes/Downloads/test/", seq_along(file_remote), ".bin")

我们也可以从 URL 中推断出文件名，但我认为这不是您想要的。那么现在让我们比较这 821 个文件的方法:

res <- bench::mark(
  baseline(),
  multi_download(file_remote, 
                 file_local,
                 print = FALSE),
  check = FALSE
)
#> Warning: Some expressions had a GC in every iteration; so filtering is disabled.
summary(res)
#> Warning: Some expressions had a GC in every iteration; so filtering is disabled.
#> # A tibble: 2 × 6
#>   expression                                                min median `itr/sec`
#>   <bch:expr>                                             <bch:> <bch:>     <dbl>
#> 1 baseline()                                               2.8m   2.8m   0.00595
#> 2 multi_download(file_remote, file_local, print = FALSE)  12.7s  12.7s   0.0789 
#> # … with 2 more variables: mem_alloc <bch:byt>, `gc/sec` <dbl>
summary(res, relative = TRUE)
#> Warning: Some expressions had a GC in every iteration; so filtering is disabled.
#> # A tibble: 2 × 6
#>   expression                                               min median `itr/sec`
#>   <bch:expr>                                             <dbl>  <dbl>     <dbl>
#> 1 baseline()                                              13.3   13.3       1  
#> 2 multi_download(file_remote, file_local, print = FALSE)   1      1        13.3
#> # … with 2 more variables: mem_alloc <dbl>, `gc/sec` <dbl>

新方法比原来的方法快 13.3 倍。我认为您拥有的文件越多，差异就越大。但请注意，该基准测试并不完美，因为我的网速波动很大。

该功能还应该在处理错误方面得到改进(目前您会收到一条消息，有多少请求已成功，有多少请求出错，但没有指示存在哪些文件)。我的理解也是multi_run在save_download将文件写入磁盘之前将文件写入内存。对于小文件，这很好，但对于较大的文件可能会出现问题。

基线函数

baseline <- function() {
  credentials <- "usr/pwd"
  downloader <- function(file_remote, file_local, credentials) {
    data_bin <- RCurl::getBinaryURL(
      file_remote,
      userpwd = credentials,
      ftp.use.epsv = FALSE,
      forbid.reuse = TRUE
    )
    writeBin(data_bin, file_local)
  }
  
  purrr::walk2(
    file_remote,
    file_local,
    ~ downloader(
      file_remote = .x,
      file_local = .y,
      credentials = credentials
    )
  )
}

^{由 reprex package 创建于 2022-06-05 (v2.0.1)}

关于r - 在 R 中下载多个文件的更快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72380712/

25

4

0

文章推荐： d - 如何在 D 中以毫秒为单位获取当前 Unix 时间戳？

文章推荐： svelte - 更新 Svelte 可写数组存储的正确方法是什么？

文章推荐： c# - 无法在 C# 中使用 twilio 发送短信

文章推荐： c - 严格别名是单向的吗？

c# - 文件正在通过 visual studio 下载，而不是通过 .exe 下载
当我尝试通过我的 .exe 文件从 url 下载 .pdf 文件时出现以下错误。 The server committed a protocol violation. Section=Response
google-cloud-platform - 从 G Suite 下载 Google 外卖从 Google Cloud Storage 下载
我是一家非营利组织的 G Suite 管理员，刚刚发现数据导出功能，这似乎是个人帐户的外卖。导出文件已准备好，现在可以从 Google Cloud Platform Storage 中的存储桶下载。
七牛云私有空间图片上传、下载
导航引言总体思路七牛云相关的配置文件获取七牛云上传token 相关类定义核心代码实现获取七牛云图片下载链接公开空
下载 PDF 而不是在新标签页中打开
这不是后端编程问题。我只能修改标记或脚本(或文档本身)。我在这里问的原因是因为我对适当术语的所有搜索都不可避免地导致有关编程此功能的问题和解决方案。我不是试图通过编程来强制它；我必须找出此 PDF 行
AdSense SDK 下载
您好，我已在 Google AdSense 中注册，我想使用适用于 iOS 的 SDK，但目前我找不到 SDK 下载链接。我的申请已获批准。任何人都知道如何下载这个sdk。我使用这个链接来描述如
github 下载 - 只能是平面文件系统吗？
我需要为当前在 SourceForge 上的 github 项目提供二进制文件和文档。在那里，我可以为我需要的下载提供一个目录结构，因为我必须为大约 10 个不同的操作系统提供几个版本。 github
JavaScript Canvas 下载
我从 Canvas 下载绘图时遇到问题。这是我的代码: function downloadCanvas(link, canvasId, filename) { link.href =
特定用户的 Azure 下载
ASP.NET 项目我将使用 Azure 进行存储。问题(要求): 在我的项目中，我让注册用户下载文件。但我不希望用户将此下载链接分享给未注册的人(例如:我给注册用户的下载链接只能在他们的计算机上下
Java Servlet 下载
我编写了一个servlet，用于检查http header ，但我不知道为什么当页面加载时，它会自动开始下载。 /* * To change this template, choose To
JavaFX WebView 下载
我正在尝试将下载添加到我的网络浏览器，但遇到的问题是获取您尝试下载的文件的名称。这是我的下载代码: engine.locationProperty().addListener(new ChangeLi
Java 下载 html
我正在尝试下载网站的 html: String encoding = "UTF-8"; HttpContext localContext = new BasicHttpContext();
java - 为什么当我开始此操作时我的框架会卡住[下载]
我制作了一个带有“开始下载”按钮的框架，用于从网站下载 JAR。问题是每当我点击开始下载按钮时，整个框架就会卡住，直到下载完成，然后就正常了。我该如何解决这个问题？这是单击按钮时执行的代码 p
iOS NSURLSession 下载
我得到这段代码来实现一些东西，它可以帮助我从给定的 URL 下载文件。 -(void)URLSession:(NSURLSession *)session downloadTask:(NSURLSes
java - 流媒体上传/下载
我正在尝试创建一个 Controller 来使用流方法下载和上传文件，在我的例子中，所有文件都作为 Blob 保存在数据库中。我阅读了 Jboss Netty 的文档，但我认为这不是我的最佳解决方案。
下载 Alamofire 后快速保存文件
下载并保存文件 let destination: DownloadRequest.DownloadFileDestination = { _, _ in // var fileURL = sel
html - htaccess访问/下载
使用 htaccess 我基本上试图禁止访问该页面，即 http://example.com , 但它仍然允许人们下载文件，如果他们有直接链接即 http://example.com/hi.zip .
Linux - 下载/解压脚本
我正在寻求将脚本与我的控制面板集成，并且由于我是新手脚本编写者而遇到问题。我想做的是用 1 个脚本下载一个文件并解压它。示例: wget http://example.com/example.tar
android ffmpeg .so 下载
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
php - 如何保护网站免受批量抓取/下载？
这个问题在这里已经有了答案: Top techniques to avoid 'data scraping' from a website database (14 个答案) 关闭 5 年前。我有
Python-Gmail邮件检索/下载
这个问题在这里已经有了答案: Reading and parsing email from Gmail using C#, C++ or Python (6 个答案) 关闭 7 年前。我只是想，是

首页

博学

6Ren·AI

商城

r - 在 R 中下载多个文件的更快方法

基线函数