gpt4 book ai didi

apache-spark - Databricks 中使用的集群管理器是什么?如何更改 Databricks 集群中的执行程序数量?

转载 作者:行者123 更新时间:2023-12-04 11:31:14 27 4
gpt4 key购买 nike

Databricks 中使用的集群管理器是什么?
如何更改 Databricks 集群中的执行程序数量?

最佳答案

What is the cluster manager used in Databricks?



Azure Databricks 通过提供 建立在 Spark 的功能之上。零管理云平台包括了:
  • 完全托管的 Spark 集群
  • 用于探索和可视化的交互式工作区
  • 为您最喜爱的基于 Spark 的应用程序提供支持的平台

  • Databricks 运行时构建在 Apache Spark 之上,并且是为 Azure 云原生构建的。

    无服务器 选项,Azure Databricks 完全抽象出基础结构的复杂性以及设置和配置数据基础结构所需的专业知识。无服务器选项可帮助数据科学家作为一个团队快速迭代。

    对于关心生产作业性能的数据工程师,Azure Databricks 通过在 I/O 层和处理层(Databricks I/O)的各种优化,提供了一个更快、性能更好的 Spark 引擎。

    How do I change the number of executors in Databricks clusters ?



    创建集群时,您可以提供 集群的固定数量的工作人员 为集群提供最小和最大工作线程数 .

    当您提供固定大小的集群时: Azure Databricks 可确保您的群集具有指定数量的工作器。当您提供工作人员数量的范围时,Databricks 会选择运行您的作业所需的适当工作人员数量。这称为自动缩放。

    使用自动缩放: Azure Databricks 会根据作业的特征动态地重新分配工作人员。管道的某些部分可能比其他部分对计算的要求更高,Databricks 会在您工作的这些阶段自动添加额外的工作人员(并在不再需要时将其删除)。

    自动缩放可以更轻松地实现高集群利用率,因为您无需配置集群以匹配工作负载。这尤其适用于需求随时间变化的工作负载(例如在一天中探索数据集),但它也适用于供应需求未知的一次性较短工作负载。因此,自动缩放有两个优点:
  • 与大小不变的未配置集群相比,工作负载可以运行得更快。
  • 与静态大小的集群相比,自动缩放集群可以降低总体成本。

  • 注:根据集群和工作负载的恒定大小,自动缩放可以同时为您提供这些好处中的一个或两个。当云提供商终止实例时,集群大小可以低于选择的最小工作线程数。在这种情况下,Azure Databricks 会不断重试重新预配实例,以保持最少数量的工作人员。

    集群自动缩放不适用于 spark-submit 作业。要了解有关自动缩放的更多信息,请参阅 Cluster autoscaling .

    希望这可以帮助。

    关于apache-spark - Databricks 中使用的集群管理器是什么?如何更改 Databricks 集群中的执行程序数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57045259/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com