gpt4 book ai didi

r - 如何最好地处理将大型本地数据帧转换为 SparkR 数据帧?

转载 作者:行者123 更新时间:2023-12-04 12:18:45 25 4
gpt4 key购买 nike

如何有效地将大型本地数据帧转换为 SparkR 数据帧?在我的本地开发机器上,当我尝试将其转换为 SparkR 数据帧时,大约 650MB 的本地数据帧很快就会超过可用内存,并且我有一台带有 40GB Ram 的开发机器。

library(reshape2)

years <- sample(1:10, 100, replace = T)
storms <- sample(1:10, 100, replace = T)
wind_speeds <- matrix(ncol = 316387, nrow = 100,
data = sample(0:250, 31638700, replace = T))

df <- data.frame(year=years, storm=storms, ws = wind_speeds)
df <- melt(df, id.vars = c('year', 'storm'))

Sys.setenv(SPARK_HOME = "/home/your/path/spark-2.0.0-bin-hadoop2.7")
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "10g"))

spark_df <- as.DataFrame(df) #This quickly exceeds available memory

最佳答案

我仍然对这个问题的答案很感兴趣,但想发布我的工作。

我的最终目标是将 5,000 个大型二进制文件转换为 parquet 格式,以便可以查询数据。我本来打算连续迭代它并使用 Spark write.parquet 函数,然后遇到了产生这个问题的问题。无论出于何种原因,Spark 都无法将 650MB 的本地数据帧转换为 SparkR 分布式数据帧而不会耗尽内存(我的开发箱上有 40 GB)。

我为解决问题所做的工作:

  • 使用 SparkR 将 5,000 个二进制文件并行转换为 CSV,并使用 spark.lapply 调用我的转换函数

  • 使用 Apache Drill 将 CSV 文件转换为 parquet 格式

  • 这是约 3.5TB 的数据,未压缩为 CSV 文件,最后以 parquet 格式达到约 350GB

关于r - 如何最好地处理将大型本地数据帧转换为 SparkR 数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39392327/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com