gpt4 book ai didi

webserver - Airflow : `airflow webserver` 、 `airflow scheduler` 和 `airflow worker` 到底做了什么?

转载 作者:行者123 更新时间:2023-12-02 22:26:54 31 4
gpt4 key购买 nike

我使用 Airflow 已经有一段时间了,它是由一位同事创建的。最近我遇到了一些错误,这需要我更深入地了解如何修复 Airflow 中的某些问题。

我确实理解这三个进程是什么,但我只是不明白运行它们时发生的底层事情。当我运行其中一个命令时到底会发生什么?之后我可以在某个地方看到他们正在运行吗?如果我运行这些命令之一,这是否会覆盖旧的网络服务器/调度程序/工作人员或添加新的?

此外,如果我运行airflow webserver,屏幕会显示一些正在发生的事情。我可以通过按 CTRL + C 来摆脱这个问题吗?因为当我这样做时,它会显示诸如 Worker exitingShutting down: Master 之类的内容。这是否意味着我要关闭一切?那么我还应该如何退出网络服务器屏幕呢?

最佳答案

每个进程在运行时都会执行其构建的任务(网络服务器提供 UI,调度程序确定何时需要运行,而工作人员实际运行任务)。

我认为您的困惑在于,您可能将它们视为告诉某种“Airflow 服务”执行某些操作的命令,但它们都是启动进程执行操作的独立命令。 IE。从无到有,您运行airflow Scheduler:现在您已经运行了一个调度程序。运行airflow webserver:现在您已经运行了一个网络服务器。当您运行airflow webserver时,它正在启动一个Python Flask应用程序。当该进程正在运行时,网络服务器正在运行,如果您终止命令,则会关闭。

所有三个都必须运行才能使 Airflow 作为一个整体工作(假设您正在使用需要工作人员的执行程序)。您应该只运行一个调度程序,但如果您要运行两个 airflow webserver 进程(忽略端口冲突,那么您将有两个使用相同元数据数据库运行的独立 http 服务器。Worker 是一个略有不同的是,您可能希望运行多个工作进程,以便可以同时执行更多任务。因此,如果您创建多个airflow工作进程,最终将有多个进程从队列中获取作业,执行它们,并使用任务状态更新任务实例。

当您运行任何这些命令时,您将在控制台中看到 stdout 和 stderr 输出。如果您将它们作为守护进程或后台进程运行,您可以检查服务器上正在运行哪些进程。

如果您按下 ctrl+c,您将发送一个信号来终止该进程。理想情况下,对于生产 Airflow 集群,您应该有一些主管监视流程并确保它们始终运行。在本地,您可以在单独 shell 的前台运行命令,最小化它们,并在需要时保持它们运行。或者使用 -D 参数将它们作为后台守护程序运行。即airflow webserver -D

关于webserver - Airflow : `airflow webserver` 、 `airflow scheduler` 和 `airflow worker` 到底做了什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51063151/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com