gpt4 book ai didi

google-cloud-platform - Cloud Composer GKE 节点升级导致 Airflow 任务随机失败

转载 作者:行者123 更新时间:2023-12-05 01:11:34 26 4
gpt4 key购买 nike

问题:

我有一个托管的 Cloud Composer 环境,在 1.9.7-gke.6 Kubernetes 集群主机下。我尝试将它(以及默认池节点)升级到 1.10.7-gke.1,因为可以升级。

从那时起,Airflow 就一直随机运行。正常工作的任务会无缘无故地失败。这使得 Airflow 无法使用,因为调度变得不可靠。以下是每 15 分钟运行一次的任务示例,其行为在升级后非常明显: airflow_tree_view

将鼠标悬停在失败的任务上时,它只会显示一条 Operator: null 消息 ( null_operator )。此外,该任务根本没有日志。

我已经能够在另一个 Composer 环境中重现这种情况,以确保升级是导致功能障碍的原因。

到目前为止我尝试了什么:

我假设升级可能搞砸了调度程序或 Celery(Cloud composer 默认为 CeleryExecutor)。

我尝试使用以下命令重新启动调度程序:

kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -

我还尝试从 worker 内部重启 Celery,使用

kubectl exec -it airflow-worker-799dc94759-7vck4 -- sudo celery multi restart 1

Celery 重新启动,但没有解决问题。因此,我尝试以与 Airflow 调度程序相同的方式完全重新启动 Airflow 。

这些都没有解决问题。

旁注,在学习本教程 (Google Cloud - Connecting to Flower) 时,我无法访问 Flower 来监控 Celery。连接到 localhost:5555 永远处于“等待”状态。不知道有没有关系。

如果我遗漏了什么,请告诉我!

最佳答案

1.10.7-gke.2 现在可用 [1]。您能否进一步升级到 1.10.7-gke.2 以查看问题是否仍然存在?

[1] https://cloud.google.com/kubernetes-engine/release-notes

关于google-cloud-platform - Cloud Composer GKE 节点升级导致 Airflow 任务随机失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52361030/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com