apache-spark - 从驱动程序同时运行多个 Spark 作业-6ren

apache-spark - 从驱动程序同时运行多个 Spark 作业

转载作者：行者123 更新时间：2023-12-01 03:19:59

25

4

想象一下，我们有 3 个客户，我们希望同时为每个客户做一些相同的工作。

def doSparkJob(customerId: String) = {
  spark
    .read.json(s"$customerId/file.json")
    .map(...)
    .reduceByKey(...)
    .write
    .partitionBy("id")
    .parquet("output/")
}

我们同时这样做(来自 Spark 驱动程序):

val jobs: Future[(Unit, Unit, Unit)] = for {
  f1 <- Future { doSparkJob("customer1") }
  f2 <- Future { doSparkJob("customer1") }
  f3 <- Future { doSparkJob("customer1") }
} yield (f1, f2, f3)

Await.ready(jobs, 5.hours)

我是否正确理解这是不好的方法？许多 Spark 作业会从执行器中推出彼此的上下文，并且会出现许多将数据溢出到磁盘的情况。 spark 将如何管理并行作业的执行任务？当我们有来自一个驱动程序的 3 个并发作业并且只有 3 个具有一个内核的执行程序时，shuffle 会如何出现。

我想，一个好的方法应该是这样的:
我们按客户一起读取所有客户 groupByKey 的所有数据，然后做我们想做的事情。

最佳答案

Do I understand correctly that this is bad approach?

不必要。很大程度上取决于上下文，Spark 实现了它自己的一套 AsyncRDDActions解决这样的场景(尽管没有 Dataset 等效项)。

在最简单的情况下，使用静态分配，由于缺乏资源，Spark 很可能只会按顺序调度所有作业。除非另有配置，否则这是所描述配置最可能的结果。请记住，Spark 可以使用应用程序内调度和 FAIR 调度程序在多个并发作业之间共享有限的资源。见 Scheduling Within an Application .

如果资源量足以同时启动多个作业，则单个作业之间可能存在竞争，尤其是 IO 和内存密集型作业。如果所有作业使用相同的资源(尤其是数据库)，则 Spark 可能会导致节流和后续故障或超时。运行多个作业的一个不太严重的影响可能是增加缓存驱逐。

总的来说，在顺序执行和并发执行之间进行选择时需要考虑多个因素，包括但不限于可用资源(Spark 集群和外部服务)、API 的选择(RDD 往往比 SQL 更贪婪，因此需要一些低级别的管理)和运营商的选择。即使作业是按顺序进行的，您仍可能决定使用异步来提高驱动程序利用率并减少延迟。这对于 Spark SQL 和复杂的执行计划(Spark SQL 中的常见瓶颈)特别有用。这样 Spark 可以处理新的执行计划，同时执行其他作业。

关于apache-spark - 从驱动程序同时运行多个 Spark 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46252165/

25

4

0

文章推荐： gradle - 在 Travis CI 中构建多模块 gradle 项目

文章推荐： jQuery 函数在 Internet Explorer 中工作，不适用于 Chrome 或 FF

文章推荐： r - R Shiny 中 html 小部件之间的交互

文章推荐： python - Twisted HTTP 客户端访问对端IP(服务器)

apache-spark - Spark 如何处理比 Spark 存储大得多的数据？
目前正在学习 Spark 的类(class)并了解到执行者的定义: Each executor will hold a chunk of the data to be processed. Thisc
apache-spark - Spark 中的任务是什么？ Spark Worker如何执行jar文件？
阅读了有关 http://spark.apache.org/docs/0.8.0/cluster-overview.html 的一些文档后，我有一些问题想要澄清。以 Spark 为例: JavaSp
apache-spark - Spark 调度器与 Spark 堆栈中的独立调度器
Spark核心中的调度器与以下Spark Stack(来自Learning Spark:Lightning-Fast Big Data Analysis一书)中的Standalone Schedule
apache-spark - Apache Spark : setting spark. eventLog.enabled 和 Spark.eventLog.dir 在提交或 Spark 启动时
我想在 spark-submit 或 start 处设置 spark.eventLog.enabled 和 spark.eventLog.dir -all level -- 不要求在 scala/ja
apache-spark - Spark - Spark DataFrame、Spark SQL 和/或 Databricks 表中的混合区分大小写
我有来自 SQL Server 的数据，需要在 Apache Spark (Databricks) 中进行操作。在 SQL Server 中，此表的三个键列使用区分大小写的 COLLATION 选项
apache-spark - spark.local.ip ,spark.driver.host,spark.driver.bindAddress 和 spark.driver.hostname 是什么？
所有这些有什么区别和用途？ spark.local.ip spark.driver.host spark.driver.bind地址 spark.driver.hostname 如何将机器修复为 Sp
apache-spark - 跨多个 Spark 作业重用 Spark session
我有大约 10 个 Spark 作业，每个作业都会进行一些转换并将数据加载到数据库中。必须为每个作业单独打开和关闭 Spark session ，每次初始化都会耗费时间。是否可以只创建一次 Spar
apache-spark - spark 3.0- spark 聚合函数给出了与预期不同的表达式
/Downloads/spark-3.0.1-bin-hadoop2.7/bin$ ./spark-shell 20/09/23 10:58:45 WARN Utils: Your hostname,
apache-spark - 提交 Spark 作业到 Spark 集群
我是 Spark 的完全新手，并且刚刚开始对此进行更多探索。我选择了更长的路径，不使用任何 CDH 发行版安装 hadoop，并且我从 Apache 网站安装了 Hadoop 并自己设置配置文件以了解
apache-spark - Spark 显示的内核数与使用 spark-submit 传递给它的内核数不同
TL; 博士 Spark UI 显示的内核和内存数量与我在使用 spark-submit 时要求的数量不同更多细节: 我在独立模式下运行 Spark 1.6。当我运行 spark-submit 时
apache-spark - Spark pyspark 与 spark-submit
spark-submit 上的文档说明如下: The spark-submit script in Spark’s bin directory is used to launch applicatio
apache-spark - 在同一集群中同时进行 Spark 流和 Spark 批处理作业的最佳实践
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 6 个月前关闭。 Improve
apache-spark - Spark : Is receiver in spark streaming a bottleneck?
我想了解接收器如何在 Spark Streaming 中工作。根据我的理解，将有一个接收器任务在执行器中运行，用于收集数据并保存为 RDD。当调用 start() 时，接收器开始读取。需要澄清以下内容
apache-spark - 如何使用相同的 spark 上下文并行运行多个 spark 作业？
有没有办法在不同线程中使用相同的 spark 上下文并行运行多个 spark 作业？我尝试使用 Vertx 3，但看起来每个作业都在排队并按顺序启动。如何让它在相同的 spark 上下文中同时运行
apache-spark - 如何在不停止 Spark 流的情况下清理 Spark 历史事件日志
我们有一个 Spark 流应用程序，这是一项长期运行的任务。事件日志指向 hdfs 位置 hdfs://spark-history，当我们开始流式传输应用程序时正在其中创建 application_X
apache-spark - 使用 Spark - Spark JobServer 的基于请求的实时推荐？
我们正在尝试找到一种加载 Spark (2.x) ML 训练模型的方法，以便根据请求(通过 REST 接口(interface))我们可以查询它并获得预测，例如http://predictor.com
apache-spark - spark-sql 与 spark-shell REPL 中的 Spark SQL 性能差异
Spark newb 问题:我在 spark-sql 中进行完全相同的 Spark SQL 查询并在 spark-shell . spark-shell版本大约需要 10 秒，而 spark-sql版
apache-spark - Spark 累加器未显示在 Spark WebUI 中
我正在使用 Spark 流。根据 Spark 编程指南(参见 http://spark.apache.org/docs/latest/programming-guide.html#accumulato
scala - Spark : how to run spark file from spark shell
我正在使用 CDH 5.2。我可以使用 spark-shell 运行命令。如何运行包含spark命令的文件(file.spark)。有没有办法在不使用 sbt 的情况下在 CDH 5.2 中运行/
apache-spark - Spark-Cassandra 与 Spark-Elasticsearch
我使用 Elasticsearch 已经有一段时间了，但使用 Cassandra 的经验很少。现在，我有一个项目想要使用 Spark 来处理数据，但我需要决定是否应该使用 Cassandra 还是

首页

博学

6Ren·AI

商城

apache-spark - 从驱动程序同时运行多个 Spark 作业