在不超过我的 RAM 的情况下分块读取 20GB 文件

在不超过我的 RAM 的情况下分块读取 20GB 文件 - R

转载作者：行者123 更新时间：2023-12-01 12:49:28

25

4

我目前正在尝试读取一个 20GB 的文件。我只需要该文件的 3 列。
我的问题是，我被限制为 16 GB 的内存。我尝试使用 readr并使用函数 read_csv_chunked 分 block 处理数据和 read_csv使用跳过参数，但它们都超出了我的 RAM 限制。
甚至 read_csv(file, ..., skip = 10000000, nrow = 1)读取一行的调用耗尽了我所有的 RAM。

我现在的问题是，我怎样才能读取这个文件？有没有办法在不使用那么多内存的情况下读取文件 block ？

最佳答案

LaF包可以以 block 的形式读取 ASCII 数据。可以直接使用，也可以使用dplyr chunked包使用它来提供与 dplyr 一起使用的接口(interface)。

readr包有 readr_csv_chunked及相关功能。

本栏目web page标题为 The Loop 以及该页面的后续部分描述了如何使用 base R 进行分 block 读取。

可能是如果您删除除前三列之外的所有列，它将小到足以读取并一次处理。
vroom在 vroom包可以非常快速地读入文件，也可以只读入 select= 中命名的列。论点可能使它足够小，可以一口气读完。
fread在 data.table包是一个快速阅读功能，也支持select=只能选择指定列的参数。
read.csv.sql在 sqldf (另见 github page )包可以将大于 R 可以处理的文件读取到临时外部 SQLite 数据库中，它会为您创建并随后删除并读取给定到 R 中的 SQL 语句的结果。如果前三列被命名col1、col2 和 col3 然后尝试下面的代码。有关取决于您的文件的其余参数，请参见 ?read.csv.sql 和 ?sqldf 。

library(sqldf)
DF <- read.csv.sql("myfile", "select col1, col2, col3 from file", 
  dbname = tempfile(), ...)

read.table和 read.csv在 R 的基础上有一个 colClasses=参数，它采用列类的向量。如果文件有 nc 列，则使用 colClasses = rep(c(NA, "NULL"), c(3, nc-3))只阅读前 3 列。

另一种方法是使用 cut、sed 或 awk(在 UNIX 和 Windows 上的 Rtools bin 目录中 native 可用)或许多免费命令行实用程序中的任何一个，例如 csvfix 来预处理文件。在 R 之外删除除前三列之外的所有列，然后查看它是否足够小，可以一口气阅读。

另请查看 High Performance Computing任务 View 。

关于在不超过我的 RAM 的情况下分块读取 20GB 文件 - R，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60928866/

25

4

0

文章推荐： javascript - 使用 angular-ui-select2 0.0.5 预选选项

文章推荐： emulation - Z80 DAA 标志受到影响

文章推荐： sql - PIL 逊相关 SQL Server

分块
分块特点：一种优雅的暴力，大段维护，小段朴素。假设我们有一个长度为 $n$ 的数组 $a$。需要我们维护区间修改和区间查询等操作。那么朴素算法就不用说了，如果是万能的线段树还行
WCF 分块/流媒体
我正在使用 WCF 并希望将大文件从客户端上传到服务器。我已经调查并决定遵循 http://msdn.microsoft.com/en-us/library/aa717050.aspx 中概述的分块方
http - 传输编码:分块
我试图了解有关 Transfer-Encoding:chunked 的更多信息。引用了一些文章: http://zoompf.com/blog/2012/05/too-chunky和 "Transfe
hdf5 - 分块 HDF5 数据集和slabsize
我们正在评估 HDF5 在分块数据集方面的性能。特别是我们试图弄清楚是否可以跨不同的连续块进行读取以及这样做会如何影响性能？例如。我们有一个块大小为 10 的数据集，一个有 100 个值的数据集，
php - 如何从闭包中终止 Eloquent 分块
使用 Eloquent，如何根据 chunk 中的条件终止分块函数的关闭？我试过返回，但这似乎只终止当前块而不是所有块。此时，我想停止从数据库中检索记录。 $query->chunk(self::CH
javascript - plupload:从头开始重新上传(分块)
有没有办法在不删除所选文件的情况下重新启动 plupload 上传？ plupload.stop() 停止上传，但如果我使用 start() 再次启动上传，它会从上次停止的地方继续。相反，我希望它再次
python - 连接两个大文件而不用 pandas 分块
我有带有“id，名称”的文件1和带有“id，地址”的文件2。我无法加载第一个文件(小于 2Gb):它在 76k 行(带有 block 连接)和只有 2 列后崩溃...我也无法在第二个文件上 read_
javascript - Servlet/Javascript 分块
我正在尝试从头开始设计一个系统，我想在其中通过 servlet 加载文本行。生产线的生产需要一些时间。因此，我希望能够在它们到达时在我的浏览器中逐步显示它们，一次显示几个。我想从 javascript
android - 分块 Web 服务响应
能否请您提供一个示例，说明如何在 Android 中读取来自 Web 服务的分块响应谢谢编辑:我尝试调用一个 soap 网络服务，它用代表图像的 base64 编码字符串回复我代码如下: Str
algorithm - 分块 map 的数据结构
我想制作一个无限平铺 map ，从(-max_int,-max_int)到(max_int,max_int)，所以我要制作一个基本结构: chunk，每个 chunk 包含 char tiles[w]
php - 如果已发送部分响应(分块)，如何将浏览器发送到错误页面
这是一个典型的场景:评估一个页面，并且有一个缓冲区 - 一旦缓冲区已满，评估的页面部分就会发送到浏览器。这使用 HTTP 1.1 分块编码。但是，其中一个 block 中可能会发生错误(在第一个 b
python - 与 nltk 分块
如何从给定模式的句子中获取所有 block 。例子 NP:{} 标记的句子: [("money", "NN"), ("market", "NN") ("fund", "NN")] 如果我解析我得到 (
Python 分块 CSV 文件多处理
我正在使用以下代码将 CSV 文件拆分为多个 block (来自 here) def worker(chunk): print len(chunk) def keyfunc(row):
javascript - Dropzone JS - 分块
我想我已经很接近这个了，我有以下 dropzone 配置: Dropzone.options.myDZ = { chunking: true, chunkSize: 500000, ret
javascript - 分块 WebSocket 传输
因为我在更常规的基础上使用 WebSocket 连接，所以我对事情在幕后的工作方式很感兴趣。因此，我研究了无休止的规范文档一段时间，但到目前为止，我真的找不到任何关于对传输流本身进行分 block 。
go - Go中的 slice 分块
我有一个 slice ，其中包含约 210 万个日志字符串，我想创建一个 slice ，字符串尽可能均匀分布。这是我目前所拥有的: // logs is a slice with ~2.1 mill
python - 大型 NumPy 数组的成对距离(分块？)
问题: 我有一个大约为 [350000, 1] 的向量，我希望计算成对距离。这导致 [350000, 350000] 整数数据类型的矩阵不适合 RAM。我最终想得到一个 bool 值(适合 RAM)，
jquery - JSONP 和 jQuery 分块
我想将 JSONP 用于具有 x 域脚本编写的项目，但不太关心 IE 中的 2048 个字符限制。如果字符大小超过 2048，JSONP 是否自动支持“分块”？如果是的话，有人可以分享一些例子吗？
java - Libgdx 分块 map 碰撞检测
我目前正在开发 2d 角色扮演游戏，例如《最终幻想 1-4》。基本上，我的平铺 map 可以加载， Sprite 可以在 map 上自由行走。如何处理与平铺 map 的碰撞？我创建了三个独立的图
python - 使用 Python-Treetaggerwrapper 分块
Treetagger 可以进行词性标记和文本分块，这意味着提取口头和名词性从句，如这个德语示例所示: $ echo 'Das ist ein Test.' | cmd/tagger-chunker-g

首页

博学

6Ren·AI

商城

在不超过我的 RAM 的情况下分块读取 20GB 文件 - R