r - 在第二行的 R WITH 标题中导入大型 .CSV 的延迟时间很长-6ren

r - 在第二行的 R WITH 标题中导入大型 .CSV 的延迟时间很长

转载作者：行者123 更新时间：2023-12-04 18:06:51

26

4

我正在开发一个应用程序，该应用程序从 .csv 中提取数据，然后对其进行一些计算。挑战在于 .csv 的大小可能非常大。我在这里查看了许多讨论使用各种函数和库导入大型 .csv 文件的帖子。一些例子如下:

### size of csv file: 689.4MB (7,009,728 rows * 29 columns) ###

system.time(read.csv('../data/2008.csv', header = T))
#   user  system elapsed 
# 88.301   2.416  90.716

library(data.table)
system.time(fread('../data/2008.csv', header = T, sep = ',')) 
#   user  system elapsed 
#  4.740   0.048   4.785

library(bigmemory)
system.time(read.big.matrix('../data/2008.csv', header = T))
#   user  system elapsed 
# 59.544   0.764  60.308

library(ff)
system.time(read.csv.ffdf(file = '../data/2008.csv', header = T))
#   user  system elapsed 
# 60.028   1.280  61.335 

library(sqldf)
system.time(read.csv.sql('../data/2008.csv'))
#   user  system elapsed 
# 87.461   3.880  91.447

我面临的挑战是这个。有问题的 .csv 在第二行和第一行有标题，其中填充了无用的信息。我最初的方法(成功应用于小于 5MB 的小文件)是在删除第一行后使用以下代码导入小文件。

report_query_X_all_content = readLines("C:/Users/.../report_queryX_XXX-XXX-XXXX.csv")
skip_first = report_query_X_all_content[-1]
report_query_X = read.csv(textConnection(skip_first), header = TRUE, stringsAsFactors = FALSE)

不幸的是，一旦基本文件的大小超过 70 或 80MB，导入时间似乎呈指数增长。我一直在查看的大多数函数，例如 fread()，都要求您直接传入 .csv。正如您在我的实现中看到的那样，我在删除所需的行后通过 textConnection 传入了 skip_first。我遇到的问题是，对于 70 或 80MB 的文件，存在不成比例的时间滞后。我在将近 55 分钟前开始了一次导入，但它仍在为 79MB 的文件运行。对于上下文，skip_first 出现在内存中，大小约为 95MB。我的下一个导入是大约 785MB。有没有人对如何使用更大的数据文件完成我想要做的事情有任何建议或建议。最终，此解决方案将应用于大小为 1 - 4 GB 的 .csv 文件，我担心 textConnection() 步骤会导致瓶颈。

最佳答案

这是我最终使用 & 的解决方案，效果很好:

start_time <- Sys.time() # Calculate time diff on the big files

library(bit64)

report_query_X <- fread('C:/Users/.../report_queryX_XXX-XXX-XXXX.csv', skip = 1, sep = ",")

end_time <- Sys.time() # Calculate time diff on the big files
time_diff <- end_time - start_time # Calculate the time difference
# time_diff = 1.068 seconds

此实现所花费的总时间为 78.9MB 文件需要 1.068 秒 ，这是极好的。使用 fread() 跳过会有很大的不同。我最初使用 fread() 时确实收到了一条警告消息，并指出:

Warning message:
In fread("C:/Users/.../report_queryX_XXX-XXX-XXXX.csv",  :
  Some columns have been read as type 'integer64' but package bit64 isn't loaded. Those columns will display as strange looking floating point data. There is no need to reload the data. Just require(bit64) to obtain the integer64 print method and print the data again.

这就是为什么我最终使用 install.packages("bit64") 安装 bit64，然后使用库函数调用它的原因；库(位64)

编辑:请注意，我刚刚尝试在 251MB 文件上使用此调用，总导入时间为 1.844106 秒。

关于r - 在第二行的 R WITH 标题中导入大型 .CSV 的延迟时间很长，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24921387/

26

4

0

文章推荐： tomcat - SSL fatal error ，握手失败 40

文章推荐： waf - 为什么 waf 找不到存在的路径？

文章推荐： jira - 链接到 JIRA 评论中的 Confluence 页面

javascript - 延迟(延迟)加载背景图像？
我正在使用一个简单的脚本来延迟加载页面上的所有图像；图像源的路径包含在 data-src 属性中，然后放入 img 标记的实际 src 属性中。几乎大多数(？)延迟加载方法的实现都是如何工作的。这是
ios - 点击屏幕底部会导致 touchesBegan 延迟/延迟
我有一个具有多层 (SKNodes) 背景、游戏层、前景和 HUD 的场景，每个场景中都有多个 SKSpriteNode，用于滚动和您可以收集和点击的对象。 hud 层只有一个 SKSpriteNod
javascript - 延迟 promise 值未更新/解析/延迟
我有一个 Controller 函数来创建一些东西。调用该函数时，将运行 setInterval 来获取项目的状态。这是服务: (function () { 'use strict';
swift - 广播流媒体 AVPlayer 延迟(延迟)太高 swift 3
在我的应用程序中，我播放音频直播，延迟非常重要。我正在使用 AVPlayer，但启动需要 5-6 秒，并且我需要最多 3 秒的延迟。我怎样才能更快地开始播放并减少延迟？设置一个小缓冲区就可以了？如何使
python - 几次请求后 wsgiref.simple_server 出现奇怪的滞后/延迟/延迟/任何问题
我有一个恼人的问题。我有这个简单的服务器代码(比方说): #!/usr/bin/env python3 import wsgiref.simple_server def my_func(env, st
jQuery 延迟
我是 jquery deferreds 的新手。这里我有一个简单的example 。谁能告诉我为什么在其他函数完成之前就触发完成函数(“现在是我的时间”)？这里的人 example还创建一个延迟对
JavaScript 延迟
正在放置关闭之前的标签标记相同的 sa 将它们放在中部分并指定 defer="defer"属性？最佳答案是/否。是的，因为放置 defer 标签会等到文档加载完毕后再执行。否，因为放置
JavaScript 延迟
我知道Javascript没有delay(500)方法，它会延迟执行500毫秒，所以我一直试图通过使用setTimeout和setInterval来解决这个问题。 for(var i =0; i< 1
主写和从读的数据库复制滞后(延迟)
我们有一个读写主服务器和复制的从读服务器。在某些网络用例中，数据被发布并立即读取以发送回服务器。立即读取是在读取从属设备上完成的，由于延迟，数据尚未在那里更新。我知道这可能是复制设置的一个常见问题，
追赶实例之间的 Airflow 延迟
我有以下 dag 设置以从 2015 年开始运行追赶。对于每个执行日期，任务实例在一分钟内完成。但是，第二天的任务仅在 5 分钟窗口内开始。例如。上午 10:00、上午 10:05、上午 10:10
WatchKit:setTitle 延迟？
当我在 WatchKit 中推送一个新 Controller 并在新 Controller 的awakeWithContext: 方法中使用 setTitle 时，它需要一秒钟左右来设置标题，直到
渲染时抖动 SVG 延迟
我将图像显示为 SVG 文件和文本。出于某种原因，svg 图像的渲染速度比屏幕的其余部分慢，从而导致延迟，这对用户体验不利。这种延迟正常吗？我该怎么做才能让整个屏幕同时呈现？ Row( ma
firebase(延迟)动态链接匹配精度
我正在考虑在我的应用程序中使用 firebase 动态链接。我需要将唯一标识符从电子邮件生成的链接传递到用户应用程序中。当用户安装了应用程序时，这可以正常工作，但是，我对未安装应用程序的方式有些困惑。
JQuery 使用 .each() 延迟
您知道如何使用 JQuery 的延迟方法和一个函数来检测所有已更改的表单并将每个表单作为 Ajax 帖子提交吗？如果我只列出大量表单提交，我可以得到同样的结果，但如果我使用... $('form.c
jQuery 延迟 : $. when() 与多个对象
我需要一种方法来通过回调获取不同的脚本。这个方法工作正常: fetchScripts:function() { var _this=this; $.when( $.aj
淡出前的 JQuery 延迟
我编写了一个 jquery 脚本，允许我淡入和淡出 div，然后重复。该代码运行良好。但是，当我尝试添加延迟(我希望 div 在淡出之前保持几秒钟)时，它无法正常工作。我尝试在代码中的几个地方添加延迟
performance - 延迟、带宽和吞吐量之间有什么区别？
我正在努力在延迟、带宽和吞吐量之间划清界限。有人可以用简单的术语和简单的例子来解释我吗？最佳答案水比喻: 延迟是穿过管子所需的时间。带宽是管有多宽。水流量为吞吐量车辆类比: 从源到目的地
Azure 函数，延迟
我有一个 CRM 系统，当添加联系人时，我想将他们添加到会计系统中。我在 CRM 系统中设置了一个 Webhook，将联系人传递给 Azure 函数。 Azure 函数连接到会计系统 API 并在那
Android:延迟 AudioTrack
我有一个 Android AudioTrack，例如: private AudioTrack mAudioTrack; int min = AudioTrack.getMinBufferSize(sa
javascript - 延迟、可重置功能延迟
我正在 React 中开发一个 TODO 应用程序，并尝试构建将删除选中项目延迟 X 秒的功能，并且如果在这段时间内未选中该框，它将不会被删除。我遇到的主要问题是当用户在同一 X 秒内检查、取消检查

首页

博学

6Ren·AI

商城

r - 在第二行的 R WITH 标题中导入大型 .CSV 的延迟时间很长