作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何有效地将大型本地数据帧转换为 SparkR 数据帧?在我的本地开发机器上,当我尝试将其转换为 SparkR 数据帧时,大约 650MB 的本地数据帧很快就会超过可用内存,并且我有一台带有 40GB Ram 的开发机器。
library(reshape2)
years <- sample(1:10, 100, replace = T)
storms <- sample(1:10, 100, replace = T)
wind_speeds <- matrix(ncol = 316387, nrow = 100,
data = sample(0:250, 31638700, replace = T))
df <- data.frame(year=years, storm=storms, ws = wind_speeds)
df <- melt(df, id.vars = c('year', 'storm'))
Sys.setenv(SPARK_HOME = "/home/your/path/spark-2.0.0-bin-hadoop2.7")
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "10g"))
spark_df <- as.DataFrame(df) #This quickly exceeds available memory
最佳答案
我仍然对这个问题的答案很感兴趣,但想发布我的工作。
我的最终目标是将 5,000 个大型二进制文件转换为 parquet 格式,以便可以查询数据。我本来打算连续迭代它并使用 Spark write.parquet 函数,然后遇到了产生这个问题的问题。无论出于何种原因,Spark 都无法将 650MB 的本地数据帧转换为 SparkR 分布式数据帧而不会耗尽内存(我的开发箱上有 40 GB)。
我为解决问题所做的工作:
使用 SparkR 将 5,000 个二进制文件并行转换为 CSV,并使用 spark.lapply 调用我的转换函数
使用 Apache Drill 将 CSV 文件转换为 parquet 格式
这是约 3.5TB 的数据,未压缩为 CSV 文件,最后以 parquet 格式达到约 350GB
关于r - 如何最好地处理将大型本地数据帧转换为 SparkR 数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39392327/
我是一名优秀的程序员,十分优秀!