gpt4 book ai didi

Azure Databricks : Unexpected failure while waiting for the cluster to be ready. 原因集群因驱动程序不正常而无法使用

转载 作者:行者123 更新时间:2023-12-03 03:32:04 25 4
gpt4 key购买 nike

我有一些通过 Azure 数据工厂编排的预定数据管道,每个管道都有一个在作业集群上运行的 Databricks 事件。

我的所有 Databricks 事件都陷入重试循环并失败并出现以下错误,

Databricks execution failed with error state: InternalError, error message: Unexpected failure while waiting for the cluster <cluster-id> to be ready.Cause Cluster <cluster-id> is unusable since the driver is unhealthy.

我的 Databricks 集群甚至没有启动。

这个问题与此处发布的问题非常相似,
AWS Databricks cluster start failure

但是,还是有一些区别,

  1. 我的管道在 Azure 上运行:Azure 数据工厂和 Azure数据 block
  2. 我可以启动交互式集群(在同一工作区中)没有任何问题
  3. 我已与运行类似管道的同事核实过在不同的订阅上(在同一区域),但它们不是面临任何问题

知道这是怎么回事吗?这只是某种服务中断还是我可以做些什么来解决这个问题?

最佳答案

事实证明,我的管道失败了,因为为我们的集群配置的 init 脚本未正确执行。

我们有一个在 Azure Artifacts 中维护的内置 Python 包。要安装此包,我们需要使用 DevOps token 。要在我们的集群中安装该软件包,init 脚本中提供了一个命令,但由于 token 已过期,init 脚本失败。

导致集群无法正常启动。不过,错误消息非常神秘。 “由于驱动程序不健康,集群无法使用”字面意思可能是任何意思。

但是,如果您自己遇到此问题,请检查您的初始化脚本。

注意:这里的另一个提示是,当我们查看事件日志时,我们注意到事件 INIT_SCRIPTS_STARTEDINIT_SCRIPTS_FINISHED 之间的时间很长。比实际需要的更多。

关于Azure Databricks : Unexpected failure while waiting for the cluster to be ready. 原因集群因驱动程序不正常而无法使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74484813/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com