gpt4 book ai didi

python - 如何在 Django 中管理 Apache Spark 上下文?

转载 作者:太空宇宙 更新时间:2023-11-03 11:22:49 26 4
gpt4 key购买 nike

我有一个与 Cassandra 数据库交互的 Django 应用程序,我想尝试使用 Apache Spark 在此数据库上运行操作。我有一些使用 Django 和 Cassandra 的经验,但我是 Apache Spark 的新手。

我知道要与 Spark 集群交互,首先我需要创建一个 SparkContext,如下所示:

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

我的问题如下:我应该如何处理这个上下文?我应该在我的应用程序启动时实例化它并让它在执行期间运行,还是应该在每次在集群中运行操作之前启动一个 SparkContext,然后在操作完成时将其终止?

提前谢谢你。

最佳答案

最近几天我一直在研究这个,因为没有人回答我会发布我的方法。

显然,创建 SparkContext 会产生一些开销,因此在每次操作后停止上下文并不是一个好主意。

此外,显然,在应用程序运行时让上下文存在也没有什么坏处。

因此,我的方法是将 SparkContext 视为数据库连接,我创建了一个单例,在应用程序开始运行时实例化上下文,并在需要时使用它。

我希望这对某人有所帮助,并且我愿意接受有关如何处理此问题的新建议,我对 Apache Spark 还是个新手。

关于python - 如何在 Django 中管理 Apache Spark 上下文?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39373608/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com