gpt4 book ai didi

r - 将大型数据集加载到 R 中的最快方法和最快格式是什么

转载 作者:行者123 更新时间:2023-12-04 00:19:33 30 4
gpt4 key购买 nike

<分区>

我有一个很大的数据集(大约 13GB 未压缩),我需要反复加载它。第一次加载(并保存为不同的格式)可能非常慢,但此后的每次加载都应尽可能快。加载数据集的最快方式和最快格式是什么?

我怀疑最佳选择是这样的

 saveRDS(obj, file = 'bigdata.Rda', compress = FALSE)
obj <- loadRDS('bigdata.Rda)

但这似乎比使用 data.table 包中的 fread 函数慢。这不应该是这种情况,因为 fread 从 CSV 转换文件(尽管它被公认是高度优化的)。

~800MB 数据集的一些计时是:

> system.time(tmp <- fread("data.csv"))
Read 6135344 rows and 22 (of 22) columns from 0.795 GB file in 00:00:43
user system elapsed
36.94 0.44 42.71
saveRDS(tmp, file = 'tmp.Rda'))
> system.time(tmp <- readRDS('tmp.Rda'))
user system elapsed
69.96 2.02 84.04

以前的问题

This问题是相关的,但并不反射(reflect) R 的当前状态,例如,答案表明从二进制格式读取总是比文本格式更快。使用 *SQL 的建议对我的情况也没有帮助,因为需要整个数据集,而不仅仅是其中的一个子集。

还有相关的问题是最快一次加载数据的方式(eg:1)。

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com