gpt4 book ai didi

apache-spark - 更改从 jupyter 运行的 spark 驱动程序的默认堆栈大小?

转载 作者:行者123 更新时间:2023-12-04 03:15:06 29 4
gpt4 key购买 nike

我正在使用 jupyter 在 Spark 集群上运行 python 脚本。我想更改驱动程序默认堆栈大小。我在 documentation 中找到我可以使用 spark.driver.extraJavaOptions 将任何选项发送到驱动程序 JVM,但文档中有一条注释:

Note: In client mode, this config must not be set through the SparkConf directly in your application, because the driver JVM has already started at that point. Instead, please set this through the --driver-java-options command line option or in your default properties file.

问题是:从 jupyter 运行时如何更改默认驱动程序参数?

最佳答案

您可以通过将 spark.driver.extraJavaOptions 作为配置值传递到 SparkConf 来自定义用于驱动程序的 Java 选项,例如:

from pyspark import SparkConf, SparkContext
conf = (SparkConf()
.setMaster("spark://spark-master:7077")
.setAppName("MyApp")
.set("spark.driver.extraJavaOptions", "-Xss4M"))
sc = SparkContext.getOrCreate(conf = conf)

请注意,在 http://spark.apache.org/docs/latest/configuration.html 中它说明了 spark.driver.extraJavaOptions:

注意:在客户端模式下,不得通过 SparkConf 直接在您的应用程序中设置此配置,因为此时驱动程序 JVM 已经启动。相反,请通过 --driver-java-options 命令行选项或在您的默认属性文件中进行设置。

然而,这是在谈论 JVM SparkConf 类。当它在 PySpark Python SparkConf 中设置时,将它作为命令行参数传递给 spark-submit,然后在实例化 JVM 时使用它,因此 Spark 文档中的注释不适用。

关于apache-spark - 更改从 jupyter 运行的 spark 驱动程序的默认堆栈大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41766150/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com