gpt4 book ai didi

apache-spark - 同时多个 Spark 应用程序,同一个 Jarfile... 作业处于等待状态

转载 作者:行者123 更新时间:2023-12-02 18:31:17 26 4
gpt4 key购买 nike

Spark/Scala 菜鸟在这里。

我在集群环境中运行 spark。我有两个非常相似的应用程序(每个应用程序都有独特的 spark 配置和上下文)。当我尝试将它们都踢掉时,第一个似乎会获取所有资源,而第二个将等待获取资源。我在提交时设置资源,但这似乎无关紧要。每个节点都有 24 个内核和 45 GB 内存可供使用。这是我用来提交我想并行运行的两个命令。

./bin/spark-submit --master spark://MASTER:6066 --class MainAggregator --conf spark.driver.memory=10g --conf spark.executor.memory=10g --executor-cores 3 --num-executors 5 sparkapp_2.11-0.1.jar -new

./bin/spark-submit --master spark://MASTER:6066 --class BackAggregator --conf spark.driver.memory=5g --conf spark.executor.memory=5g --executor-cores 3 --num-executors 5 sparkapp_2.11-0.1.jar 01/22/2020 01/23/2020

另外我应该注意到,第二个应用程序确实启动了,但在主监控网页中,我将其视为“等待”,并且在第一个应用程序完成之前它将有 0 个内核。这些应用程序确实从相同的表中提取,但它们提取的数据块会有很大不同,因此如果这有所不同,RDD/Dataframes 是唯一的。

为了同时运行这些,我缺少什么?

最佳答案

second App does kick off but in the master monitoring webpage I see it as "Waiting" and it will have 0 cores until the first is done.



前段时间我遇到了同样的事情。这里有两件事..

可能是这些原因。

1) 你没有适当的基础设施。

2)您可能已经使用了容量调度程序,它没有抢占机制来容纳新作业,直到它。

如果它是 #1,那么你必须增加更多的节点,使用你的 spark-submit 分配更多的资源。 .

如果是 #2 那么你可以采用 hadoop fair schedular,在那里你可以维护 2 个池 see spark documentation on this优点是您可以运行并行作业 Fair 将通过抢占一些资源并分配给另一个并行运行的作业来处理。
  • mainpool对于第一个 Spark 作业..
  • backlogpool运行你的第二个 Spark 作业。

  • 要实现这一点,你需要有一个像这样的 xml 和池配置
    示例池配置:
    <pool name="default">
    <schedulingMode>FAIR</schedulingMode>
    <weight>3</weight>
    <minShare>3</minShare>
    </pool>
    <pool name="mainpool">
    <schedulingMode>FAIR</schedulingMode>
    <weight>3</weight>
    <minShare>3</minShare>
    </pool>
    <pool name="backlogpool">
    <schedulingMode>FAIR</schedulingMode>
    <weight>3</weight>
    <minShare>3</minShare>
    </pool>


    除此之外,您还需要做一些更小的更改……在驱动程序代码中,例如应该执行哪个池第一个作业以及应该执行哪个池第二个作业。

    工作原理:

    enter image description here

    详情请看我的文章。。

    hadoop-yarn-fair-schedular-advantages-explained-part1

    hadoop-yarn-fair-schedular-advantages-explained-part2

    尝试这些想法来克服等待。希望这可以帮助..

    关于apache-spark - 同时多个 Spark 应用程序,同一个 Jarfile... 作业处于等待状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61470590/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com