gpt4 book ai didi

读取具有特定扩展名的所有文件

转载 作者:行者123 更新时间:2023-12-03 23:48:41 26 4
gpt4 key购买 nike

我有几个 csv 文件存储在文件夹 "C://Users//Prices//" 我想在 R 中读取这些文件并存储它们作为数据框。我尝试了 for 循环,但是读取所有文件需要几个小时(我测量了 system.time())。

除了使用 for 循环之外,还能做到这一点吗?

最佳答案

我要重申,fread 明显更快,如 Stack Overflow 上的这篇文章所示:Quickly reading very large tables as dataframes in R。总之,测试(在 51 Mb 文件上 - 1e6 行 x 6 列)显示,与包括 sqldfffread.table 使用和不使用@lukeA 的答案中推荐的优化设置。这在评论中得到了支持,评论报告称使用 fread 可在一分钟内加载 4GB 文件,而使用基本函数则需要 15 小时。

我自己进行了一些测试,以比较读取和合并 CSV 文件的替代方法。实验设置如下:

  1. 为每次运行生成 4 列 CSV 文件(字符 x 1,数字 x 3)。有 6 次运行,每次都有不同的行数,范围从 10^1, 10^2,...,10^6 记录在数据文件中。
  2. 将 CSV 文件导入 R 10 次,与 rbindrbindlist 连接以创建单个表。
  3. 针对 fread 测试 read.csvread.table,使用和不使用优化参数(例如 colClasses)。
  4. 使用 microbenchmark 将每个测试重复 10 次(可能不必要地高!),并收集每次运行的时间。

结果再次表明,使用 rbindlistfread 优于使用 rbind 功能优化的 read.table

此表显示了每种方法的 10 次文件读取和组合的总持续时间的中位数 以及每个文件的行数。前 3 列以微秒为单位,后 3 列以秒为单位。

              expr       10       100     1000     10000    1e+05     1e+06
1: FREAD 3.93704 5.229699 16.80106 0.1470289 1.324394 12.28122
2: READ.CSV 12.38413 18.887334 78.68367 0.9609491 8.820387 187.89306
3: READ.CSV.PLUS 10.24376 14.480308 60.55098 0.6985101 5.728035 51.83903
4: READ.TABLE 12.82230 21.019998 74.49074 0.8096604 9.420266 123.53155
5: READ.TABLE.PLUS 10.12752 15.622499 57.53279 0.7150357 5.715737 52.91683

此图显示了在 HPC 上运行 10 次时的时间比较:

根据 fread 时间对这些值进行归一化显示这些其他方法在所有情况下需要多长时间:

                      10      100     1000    10000    1e+05     1e+06
FREAD 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000
READ.CSV 3.145543 3.611553 4.683256 6.535784 6.659941 15.299223
READ.CSV.PLUS 2.601893 2.768861 3.603998 4.750835 4.325023 4.221001
READ.TABLE 3.256838 4.019352 4.433693 5.506811 7.112887 10.058576
READ.TABLE.PLUS 2.572370 2.987266 3.424355 4.863232 4.315737 4.308762

HPC 上 10 次 microbenchmark 迭代的结果表

有趣的是,对于每个文件 100 万行,read.csvread.table 的优化版本比 fread 多花费 422% 和 430% 的时间code> 在没有优化的情况下,这会增加大约 1500% 和 1005%。

请注意,当我在功能强大的笔记本电脑上而不是在 HPC 集群上进行此实验时,性能提升有所降低(大约慢 81% 而不是慢 400%)。这本身就很有趣,但不确定我能否解释清楚!

                      10      100     1000    10000    1e+05     1e+06
FREAD 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000
READ.CSV 2.595057 2.166448 2.115312 3.042585 3.179500 6.694197
READ.CSV.PLUS 2.238316 1.846175 1.659942 2.361703 2.055851 1.805456
READ.TABLE 2.191753 2.819338 5.116871 7.593756 9.156118 13.550412
READ.TABLE.PLUS 2.275799 1.848747 1.827298 2.313686 1.948887 1.832518

Table of results for only 5 `microbenchmark` iterations on my i7 laptop

鉴于数据量相当大,我认为好处不仅在于使用 fread 读取文件,还在于随后使用 data 对数据进行操作.table 包而不是传统的 data.frame 操作!我很幸运在早期就吸取了这一教训,并会推荐其他人效仿...

这是测试中使用的代码。

rm(list=ls()) ; gc()
library(data.table) ; library(microbenchmark)

#=============== FUNCTIONS TO BE TESTED ===============

f_FREAD = function(NUM_READS) {
for (i in 1:NUM_READS) {
if (i == 1) x = fread("file.csv") else x = rbindlist(list(x, fread("file.csv")))
}
}
f_READ.TABLE = function(NUM_READS) {
for (i in 1:NUM_READS) {
if (i == 1) x = read.table("file.csv") else x = rbind(x, read.table("file.csv"))
}
}
f_READ.TABLE.PLUS = function (NUM_READS) {
for (i in 1:NUM_READS) {
if (i == 1) {
x = read.table("file.csv", sep = ",", header = TRUE, comment.char="", colClasses = c("character", "numeric", "numeric", "numeric"))
} else {
x = rbind(x, read.table("file.csv", sep = ",", header = TRUE, comment.char="", colClasses = c("character", "numeric", "numeric", "numeric")))
}
}
}
f_READ.CSV = function(NUM_READS) {
for (i in 1:NUM_READS) {
if (i == 1) x = read.csv("file.csv") else x = rbind(x, read.csv("file.csv"))
}
}
f_READ.CSV.PLUS = function (NUM_READS) {
for (i in 1:NUM_READS) {
if (i == 1) {
x = read.csv("file.csv", header = TRUE, colClasses = c("character", "numeric", "numeric", "numeric"))
} else {
x = rbind(x, read.csv("file.csv", comment.char="", header = TRUE, colClasses = c("character", "numeric", "numeric", "numeric")))
}
}
}

#=============== MAIN EXPERIMENTAL LOOP ===============
for (i in 1:6)
{
NUM_ROWS = (10^i) # the loop allows us to test the performance over varying numbers of rows
NUM_READS = 10

# create a test data.table with the specified number of rows and write it to file
dt = data.table(
col1 = sample(letters[],NUM_ROWS,replace=TRUE),
col2 = rnorm(NUM_ROWS),
col3 = rnorm(NUM_ROWS),
col4 = rnorm(NUM_ROWS)
)
write.csv(dt, "file.csv", row.names=FALSE)

# run the imports for each method, recording results with microbenchmark
results = microbenchmark(
FREAD = f_FREAD(NUM_READS),
READ.TABLE = f_READ.TABLE(NUM_READS),
READ.TABLE.PLUS = f_READ.TABLE.PLUS(NUM_READS),
READ.CSV = f_READ.CSV(NUM_READS),
READ.CSV.PLUS = f_READ.CSV.PLUS(NUM_READS),
times = NUM_ITERATIONS)
results = data.table(NUM_ROWS = NUM_ROWS, results)
if (i == 1) results.all = results else results.all = rbindlist(list(results.all, results))
}

results.all[,time:=time/1000000000] # convert from nanoseconds

关于读取具有特定扩展名的所有文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20935765/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com