gpt4 book ai didi

r - 在 R 中将每行的数据集拆分为较小的文件

转载 作者:行者123 更新时间:2023-12-01 11:13:13 26 4
gpt4 key购买 nike

我正在分析一个 1.14 GB(1,232,705,653 字节)的数据集。

读取R中的数据时:

trade = read.csv("commodity_trade_statistics_data.csv")

可以看到它有8225871个实例和10个属性。

Data in R

由于我打算通过 Data Wrangling Web 应用程序分析数据集,该应用程序的导入限制为 100MB,我想知道如何将数据拆分为最大 100MB 的文件?

我打算做的拆分是每行,每个文件都应该包含标题。

最佳答案

将数据帧拆分为所需数量的块。这是一个带有内置 mtcars 的示例数据集:

no_of_chunks <- 5

f <- ceiling(1:nrow(mtcars) / nrow(mtcars) * 5)

res <- split(mtcars, f)

然后,您可以使用 purrr 将结果另存为 csv。 :
library(purrr)
map2(res, paste0("chunk_", names(res), ".csv"), write.csv)

编辑:
在我的问题的上下文中,以下脚本解决了这个问题:
trade = read.csv("commodity_trade_statistics_data.csv")

no_of_chunks <- 14

f <- ceiling(1:nrow(trade) / nrow(trade) * 14)

res <- split(trade, f)

library(purrr)
map2(res, paste0("chunk_", names(res), ".csv"), write.csv)

关于r - 在 R 中将每行的数据集拆分为较小的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57047338/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com