gpt4 book ai didi

json - 在 R 中将大型数据框写为 json 的最快方法是什么?

转载 作者:行者123 更新时间:2023-12-04 14:14:00 25 4
gpt4 key购买 nike

我需要在 R 中将一个大数据框作为 JSON 写入文件。我正在使用 rjson 包。下面的方法很慢......

for (i in 1:nrow(df)) {
write.table(toJSON(df[i,]),"[FILENAME]",
row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)
}

所以我试过这个:
write.table(toJSON(df),"FILENAME]",
row.names=FALSE,col.names=FALSE,quote=FALSE,append=TRUE)

这是因为 toJSON() 无法处理非常长的字符串而窒息。所以我想一次写出我的数据表的块。对此的推荐方法是什么?如果涉及 split()你能提供一些伪代码吗?

最佳答案

这是一个大(ger)数据集

big = iris[rep(seq_len(nrow(iris)), 1000),]

带有 toJSON(df[i,]) 的 for 循环创建一个表示每一行的键值对的平面文件,而 toJSON(df)产生列向量;这些是非常不同的。我们的目标是等同于 toJSON(df[i,]) ,但格式化为单个 JSON 字符串。

开始学习 big进入列表列表 lol命名每个内部元素(使因子成为一个字符,以免进一步混淆json),所以 lol看起来像 list(big[1,], big[2,], ...)但每个元素上都有名称。
big1 <- Map(function(x, nm) setNames(x, rep(nm, length(x))), big, names(big))
big1$Species <- as.character(big1$Species)
lol <- unname(do.call(Map, c(list, big1)))

然后我们使用 rjson 库和 splitIndices 将它变成一个 vector-of-json由并行库提供(可能是其他生成拆分的方式)
chunks <- 10
json <- sapply(splitIndices(length(lol), chunks), function(idx) toJSON(lol[idx]))

我们几乎可以将 json 块写入文件,但它们不太合法——除最后一个字符串外,所有字符串都应以“,”结尾,但以“]”结尾,除第一个字符串外,所有字符串都应以任何内容开头,但是而是以“[”开头。
substring(json[-length(json)], nchar(json)[-length(json)]) = ","
substring(json[-1], 1, 1) = ""

然后准备好将这些写入文件
fl <- tempfile()
writeLines(json, fl)

结合起来,当然很多列类型强制的特殊情况都没有处理,
library(parallel)  ## just for splitIndices; no parallel processing here...
library(json)
fastJson <- function(df, fl, chunks=10) {
df1 = Map(function(x, nm) setNames(x, rep(nm, length(x))), df, names(df))
df1 <- lapply(df1, function(x) {
if (is(x, "factor")) as.character(x) else x
})
lol = unname(do.call(Map, c(list, df1)))

idx <- splitIndices(length(lol), chunks)
json <- sapply(idx, function(i) toJSON(lol[i]))
substring(json[-length(json)], nchar(json)[-length(json)]) <- ","
substring(json[-1], 1, 1) <- ""
writeLines(json, fl)
}


> fastJson(big, tempfile())
> system.time(fastJson(big, fl <- tempfile()))
user system elapsed
2.340 0.008 2.352
> system(sprintf("wc %s", fl))
10 10 14458011 /tmp/RtmpjLEh5h/file3fa75d00a57c

相比之下,只是设置 big 子集(没有任何解析为 JSON 或写入文件)需要很长时间:
> system.time(for (i in seq_len(nrow(big))) big[i,])
user system elapsed
57.632 0.088 57.835

打开此文件以追加,每行一次,与子设置相比不需要太多时间
> system.time(for (i in seq_len(nrow(big))) { con <- file(fl, "a"); close(con) })
user system elapsed
2.320 0.580 2.919

关于json - 在 R 中将大型数据框写为 json 的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18907003/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com