gpt4 book ai didi

apache-spark - 一个cpu核心能否在spark集群上并发运行多个应用?

转载 作者:行者123 更新时间:2023-12-04 04:38:14 24 4
gpt4 key购买 nike

我有两个关于 Apache spark 的问题。

  1. 我搭建了一个spark standalone集群,每个worker有4核,那是不是意味着我最多只能同时运行4个应用在一个worker上?

  2. 我有一个流程,我希望它定期运行,最佳做法是什么?在 cron 作业中调用 spark-submit 还是只是在驱动程序中循环我的代码?

最佳答案

来自 Learning Spark, Chapter 7 p. 132 :

"When sharing a Spark cluster among multiple applications, you will need to decide how to allocate resources between the executors. The Standalone cluster manager has a basic scheduling policy that allows capping the usage of each application so that multiple ones may run concurrently. Apache Mesos supports more dynamic sharing while an application is running, while YARN has a concept of queues that allows you to cap usage for various sets of applications."

因此,这应该对您有所帮助 2. 作者在第 138-139 页还提供了各种要点来帮助您决定使用哪个集群管理器。总的来说,本书的第 7 章非常宝贵,我强烈推荐购买(Databricks 有促销代码)。

关于问题 1,您通过设置配置资源分配:(1) 执行程序内存和 (2) 最大总内核数。听起来您已经设置了最大内核数,因此请考虑执行程序内存。每个应用程序都有一个执行程序(并且只有您允许的内存量)。每个核心可以有多个执行程序。

您可以通过转至 http://masternode:8080 验证独立模式的这些设置。 .

关于apache-spark - 一个cpu核心能否在spark集群上并发运行多个应用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29541872/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com