gpt4 book ai didi

scala - 增加 Spark 的可用内存

转载 作者:行者123 更新时间:2023-12-05 08:21:06 25 4
gpt4 key购买 nike

要增加我使用的最大可用内存:

export SPARK_MEM=1 g

或者我可以使用

val conf = new SparkConf()
.setMaster("local")
.setAppName("My application")
.set("spark.executor.memory", "1g")
val sc = new SparkContext(conf)

我正在运行的进程需要超过 1g。我想使用 20g,但我只有 8g 的 RAM 可用。作为 Spark 作业的一部分,可以使用 RAM 内存来扩充磁盘内存吗?如果可以,这是如何实现的?

是否有描述如何将作业分发到多个 Spark 安装的 Spark 文档?

对于 spark 配置,我使用所有默认值(在 http://spark.apache.org/docs/0.9.0/configuration.html 中指定),除了我在上面指定的内容。我有一个具有以下内容的机器实例:

CPU : 4 cores
RAM : 8GB
HD : 40GB

更新:

我认为这是我正在寻找的文档:http://spark.apache.org/docs/0.9.1/spark-standalone.html

最佳答案

如果你的工作不适合内存,Spark 会自动溢出到磁盘 - 你不需要设置交换 - 即丹尼尔的回答有点不准确。您可以使用配置设置来配置哪种处理会和不会溢出到磁盘:http://spark.apache.org/docs/0.9.1/configuration.html

此外,在单台机器上使用 Spark 也是一个好主意,因为这意味着如果您需要扩展应用程序,您将免费获得扩展 - 您编写的用于运行 1 节点的相同代码将适用于 N 节点.当然,如果您的数据永远不会增长,那么是的,坚持使用纯 Scala。

使用spark.shuffle.spill控制shuffle是否溢出,阅读“persistence”文档来控制RDD缓存如何溢出http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence

关于scala - 增加 Spark 的可用内存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23580068/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com