gpt4 book ai didi

azure - Azure 上的 Spark SSD

转载 作者:行者123 更新时间:2023-12-03 00:35:31 24 4
gpt4 key购买 nike

据官方Azure Guide使用 native Spark 缓存,即使具有磁盘持久性,也无法利用本地 SSD。我怀疑,为了从中受益,我们需要在持久化 RDD 时使用 OFF_HEAP 选项。但是如何配置它以便它使用本地 SDD(在/mnt 下作为 SDB1 安装)和 Alluxio 来处理内存中的内容?我知道开关

--conf spark.memory.offHeap.enabled="true" \
--conf spark.memory.offHeap.size=10G \

我询问的是通过一组操作生成的数据集,而不是从输入数据集生成的数据集(这很简单 - 它们只需要“HDFS://”前缀)。

最佳答案

要将 Spark 中的数据持久保存到可以管理 SSD 资源的共享外部存储,您可以使用 Alluxio 。 Spark 可以轻松地将 RDD 或 Dataframe 保存和加载到 Alluxio:

// Save RDD to Alluxio as Text File
scala> rdd.saveAsTextFile("alluxio://master:19998/myRDD")
// Load the RDD back from Alluxio as Text File
scala> sc.textFile("alluxio://master:19998/myRDD")

// Save Dataframe to Alluxio as Parquet files
scala> df.write.parquet("alluxio://master:19998/path")
// Load Dataframe back from Alluxio as Parquet files
scala> df = sqlContext.read.parquet("alluxio://master:19998/path")

关于azure - Azure 上的 Spark SSD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57159733/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com