apache-spark - 创建许多短暂的SparkSession-6ren

apache-spark - 创建许多短暂的SparkSession

转载作者：行者123 更新时间：2023-12-04 05:04:21

29

4

我有一个协调批处理作业执行的应用程序，我想为每个作业执行创建一个SparkSession-尤其是为了使注册的临时 View ，函数等完全分开。

因此，这将导致每天成千上万个SparkSession，仅在工作期间(从几分钟到几个小时)有效。有什么理由不这样做吗？

我知道一个事实，每个JVM只有一个SparkContext。我也知道SparkContext执行一些JVM全局缓存，但这对这种情况到底意味着什么？什么是缓存在SparkContext中，如果使用这些 session 执行许多 Spark 作业，将会发生什么？

最佳答案

这显示了如何使用不同的配置来构建多个 session

使用

spark1.clearActiveSession();

spark1.clearDefaultSession();

清除 session 。

 SparkSession spark1 = SparkSession.builder()
            .master("local[*]")
            .appName("app1")
            .getOrCreate();
    Dataset<Row> df = spark1.read().format("csv").load("data/file1.csv");
    df.show();
    spark1.clearActiveSession();
    spark1.clearDefaultSession();
    SparkSession spark2 = SparkSession.builder()
            .master("local[*]")
            .appName("app2")
            .getOrCreate();
    Dataset<Row> df2 = spark1.read().format("csv").load("data/file2.csv");
    df2.show();

您的问题。
Spark上下文将rdds保存在内存中，以加快处理速度。
如果有大量数据。保存表或rdds将移至hdd。
如果 session 在任何时候都另存为 View ，则可以访问表。
最好使用唯一的ID为您的作业执行多个spark-submit，而不要使用不同的配置。

关于apache-spark - 创建许多短暂的SparkSession，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43013542/

29

4

0

文章推荐： gnuplot - gnuplot 上的所有点 y 值都未定义

文章推荐： json - 如何配置ExtJS 4 Store(代理和阅读器)以读取元数据

java - 短暂 hibernate 直到点击功能
我有一个测验应用程序，用户可以在其中使用单选按钮回答一些问题。只有一个答案是正确的。当我单击我的按钮以显示正确答案时，它会显示在 textView 中。到目前为止，我还有另一个按钮可以导航到下一个
javascript - knockout 内部/外部模块!==短暂/单一的生活方式？
当使用 IoC 容器时，我可以指定当需要给定的依赖项时，要么每次传入一个新对象，要么传入的对象始终是同一个实例。我曾认为内部和外部模块分别提供了该功能，但现在我不太确定。此外，我发现在使用“内部”模

首页

博学

6Ren·AI

商城

apache-spark - 创建许多短暂的SparkSession