docker - 如何使用 docker-compose 在分布式 Airflow 架构上配置 celery worker？-6ren

docker - 如何使用 docker-compose 在分布式 Airflow 架构上配置 celery worker？

转载作者：行者123 更新时间：2023-12-04 13:08:33

24

4

我正在建立一个分布式 Airflow 集群，其中除了 celery 工作人员之外的所有其他内容都在一台主机上运行，处理在多台主机上完成。 airflow2.0 设置是使用 Airflow 文档 https://airflow.apache.org/docs/apache-airflow/stable/docker-compose.yaml 中给出的 yaml 文件配置的。 .在我最初的测试中，当我在同一台主机上运行所有东西时，我让架构很好地工作。问题是，如何在远程主机上启动 celery 工作人员？
到目前为止，我尝试创建上述 docker-compose 的修剪版本，我只在工作主机上启动 celery 工作人员，没有其他任何事情。但是我遇到了数据库连接的一些问题。在修剪版本中，我更改了 URL，以便它们指向运行 db 和 redis 的主机。
dags、日志、插件和 postgresql 数据库位于所有主机可见的共享驱动器上。
我应该如何进行配置？任何想法要检查什么？连接等？
Celery worker docker-compose 配置:

---
version: '3'
x-airflow-common:
  &airflow-common
  image: ${AIRFLOW_IMAGE_NAME:-apache/airflow:2.1.0}
  environment:
    &airflow-common-env
    AIRFLOW_UID: 50000
    AIRFLOW_GID: 50000
    AIRFLOW__CORE__EXECUTOR: CeleryExecutor
    AIRFLOW__CORE__SQL_ALCHEMY_CONN: 
postgresql+psycopg2://airflow:airflow@airflowhost.example.com:8080/airflow
    AIRFLOW__CELERY__RESULT_BACKEND: db+postgresql://airflow:airflow@airflow@airflowhost.example.com:8080/airflow
    AIRFLOW__CELERY__BROKER_URL: redis://:@airflow@airflowhost.example.com:6380/0
    AIRFLOW__CORE__FERNET_KEY: ''
    AIRFLOW__CORE__DAGS_ARE_PAUSED_AT_CREATION: 'true'
    AIRFLOW__CORE__LOAD_EXAMPLES: 'true'
    AIRFLOW__API__AUTH_BACKEND: 'airflow.api.auth.backend.basic_auth'
    REDIS_PORT: 6380
   volumes:
    - /airflow/dev/dags:/opt/airflow/dags
    - /airflow/dev/logs:/opt/airflow/logs
    - /airflow/dev/plugins:/opt/airflow/plugins
   user: "${AIRFLOW_UID:-50000}:${AIRFLOW_GID:-50000}"
services:
  airflow-remote-worker:
    <<: *airflow-common
    command: celery worker
    healthcheck:
      test:
        - "CMD-SHELL"
        - 'celery --app airflow.executors.celery_executor.app inspect ping -d "celery@$${HOSTNAME}"'
      interval: 10s
      timeout: 10s
      retries: 5
    restart: always

编辑 1:
我在处理日志文件时仍然遇到一些困难。看来共享日志目录并不能解决丢失日志文件的问题。我像建议的那样在 main 上添加了 extra_host 定义，并在工作机器上打开了端口 8793。
工作任务失败并显示日志:

*** Log file does not exist: 
/opt/airflow/logs/tutorial/print_date/2021-07- 
01T13:57:11.087882+00:00/1.log
*** Fetching from: http://:8793/log/tutorial/print_date/2021-07-01T13:57:11.087882+00:00/1.log
*** Failed to fetch log file from worker. Unsupported URL protocol ''

最佳答案

这些设置远非“终极设置”，而是在核心节点和工作程序中使用来自 Airflow 的 docker-compose 对我有用的一些设置:
主节点:

必须可以从 Webserver 所在的主节点访问工作节点。运行。我找到了 this diagram的CeleryExecutor架构非常有助于解决问题。
在尝试读取日志时，如果在本地找不到它们，它将尝试从远程 worker 那里检索它们。因此，您的主节点可能不知道您的工作人员的主机名，因此您可以更改主机名的解析方式( hostname_callable 设置，默认为 socket.getfqdn )，或者您只需将名称解析功能添加到 Webserver .这可以通过添加 extra_hosts 来完成。 x-airflow-common 中的配置键定义:

---
version: "3"
x-airflow-common: &airflow-common
  image: ${AIRFLOW_IMAGE_NAME:-apache/airflow:2.1.0}
  environment: &airflow-common-env
    ...# env vars
  extra_hosts:
    - "worker-01-hostname:worker-01-ip-address" # "worker-01-hostname:192.168.0.11"
    - "worker-02-hostname:worker-02-ip-address"

*请注意，在您拥有共享驱动器的特定情况下，我认为日志将在本地找到。

定义并行性、DAG 并发性和调度程序解析过程。可以通过使用环境变量来完成:

x-airflow-common: &airflow-common
  image: ${AIRFLOW_IMAGE_NAME:-apache/airflow:2.1.0}
  environment: &airflow-common-env
    AIRFLOW__CORE__PARALLELISM: 64
    AIRFLOW__CORE__DAG_CONCURRENCY: 32
    AIRFLOW__SCHEDULER__PARSING_PROCESSES: 4

当然，要设置的值取决于您的具体情况和可用资源。 This article对该主题有一个很好的概述。 DAG 设置也可以在 DAG 处被覆盖定义。
工作节点:

定义 worker CELERY__WORKER_CONCURRENCY ，默认值可能是机器上可用的 CPU 数量( docs )。

定义如何访问主节点中运行的服务。设置 IP 或主机名并注意主节点中匹配的暴露端口:

x-airflow-common: &airflow-common
  image: ${AIRFLOW_IMAGE_NAME:-apache/airflow:2.1.0}
  environment: &airflow-common-env
  AIRFLOW__CORE__EXECUTOR: CeleryExecutor
  AIRFLOW__CELERY__WORKER_CONCURRENCY: 8
  AIRFLOW__CORE__SQL_ALCHEMY_CONN: postgresql+psycopg2://airflow:airflow@main_node_ip_or_hostname:5432/airflow # 5432 is default postgres port
  AIRFLOW__CELERY__RESULT_BACKEND: db+postgresql://airflow:airflow@main_node_ip_or_hostname:5432/airflow
  AIRFLOW__CELERY__BROKER_URL: redis://:@main_node_ip_or_hostname:6379/0

分享同一个 Fernet Key和 Secret Key从“.env”文件中读取它们:

  environment: &airflow-common-env
    AIRFLOW__CORE__FERNET_KEY: ${FERNET_KEY}
    AIRFLOW__WEBSERVER__SECRET_KEY: ${SECRET_KEY}

  env_file:
    - .env

.env 文件: FERNET_KEY=jvYUaxxxxxxxxxxxxx=

它是关键集群中的每个节点(主节点和工作节点)都应用了相同的设置。

为工作服务定义一个主机名，以避免自动生成匹配容器 ID。

公开端口 8793，这是用于从工作程序 ( docs ) 获取日志的默认端口:

services:
  airflow-worker:
    <<: *airflow-common
    hostname: ${HOSTNAME}
    ports:
      - 8793:8793
    command: celery worker
    restart: always

确保每个工作节点主机都以相同的时间配置运行，几分钟的差异可能会导致严重的执行错误，而这些错误可能不太容易发现。考虑在主机操作系统上启用 NTP 服务。

如果您有繁重的工作负载和高并发性，您可能需要调整 Postgres 设置，例如 max_connections和 shared_buffers .这同样适用于主机操作系统网络设置，例如 ip_local_port_range或 somaxconn .
在我在初始集群设置过程中遇到的任何问题中， Flower并且工作程序执行日志始终提供有用的详细信息和错误消息，包括任务级日志和 Docker-Compose 服务日志，即: docker-compose logs --tail=10000 airflow-worker > worker_logs.log .
希望对你有用!

关于docker - 如何使用 docker-compose 在分布式 Airflow 架构上配置 celery worker？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68194327/

24

4

0

文章推荐： Docusaurus - 如何删除 TOC(目录)？

文章推荐： java - 向内部 PDF 文件添加超链接

文章推荐： python - 如何在异步 sqlalchemy 中正确处理多对多？

Kubernetes 架构
是否可以简化在裸机上运行的这条链: 具有随时间变化的副本数的 StatefulSet 服务使用 proxy-next-upstream: "error http_502 timeout invali
Facebook 架构
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
MySQL产品存储-架构
我需要为应用程序制定架构。它专为销售产品而设计。系统每天将接受大约 30-40k 的新产品。它将导致在表 product 中创建新记录。系统应保留价格历史记录。用户应该能够看到产品 A 的价格在去
PHP 架构 : How do I do that?
我需要一些帮助来理解 PHP 的内部工作原理。还记得，在过去，我们曾经写过 TSR(Terminate and stay resident)例程(pre-windows 时代)吗？一旦该程序被执行，
让我一起浅析Nginx 架构
1.Nginx 基础架构 nginx 启动后以 daemon 形式在后台运行，后台进程包含一个 master 进程和多个 worker 进程。如下图所示： master与
K8s技术全景：架构、应用与优化
本文深入探讨了Kubernetes（K8s）的关键方面，包括其架构、容器编排、网络与存储管理、安全与合规、高可用性、灾难恢复以及监控与日志系统。关注【TechLeadCloud】，
tensorflow - 如何为任何通用数据集确定卷积神经网络的结构/架构？
我知道 CNN 的工作原理，包括每一层的用途(Dropout、Pooling 等)。但是，在为新数据集设计 CNN 时，我不知道要使用多少个 Conv-Relu-Pool 层，在最终获得输出之前我应该
REST 架构 - 资源和方法
在基于 REST 的架构中，资源和方法之间有什么区别。有吗？最佳答案资源是您的应用程序定义的东西；它们与物体非常相似。方法是 HTTP 动词之一，例如 GET、POST、PUT、DELETE。它们
Json 架构 "not in"枚举类型？
我想用 oneOf仅在 xyType 的值上不同的模式属性(property)。我想要其中两个:一个是 xyType设置为 "1"第二个在哪里xyType是任何其他值 .这可以使用 json 模式完
PHP 架构，以及按引用传递与按值传递
寻求 PHP 架构师的建议! 我对 PHP 不是很熟悉，但已经接管了一个用该语言编写的大型分析包的维护工作。该架构旨在将报告的数据读取到大型键/值数组中，这些数组通过各种解析模块传递，以提取每个模块已
JavaScript 架构/应用程序结构最佳实践？
这些存在吗？多年来，我一直是大型强类型面向对象语言(Java 和 C#)的奴隶，并且是 Martin Fowler 及其同类的信徒。 Javascript，由于它的松散类型和函数性质，似乎不适合我习
Lambda 架构 - 这个名字的由来是什么？
我已经阅读了 Manning 的 Big Data Lambda Architecture ( http://www.manning.com/marz/BD_meap_ch01.pdf )，但仍然无法
xcode - 高级应用程序设计/架构
在过去的几年里，我做了相当多的 iOS 开发，所以我非常熟悉 iOS 架构和应用程序设计(一切都是一个 ViewController，您可以将其推送、弹出或粘贴到选项卡栏中)。我最近开始探索正确的 M
javascript - AngularJS 架构
我有以下应用程序，我在其中循环一些数据并显示它。 {{thing.title}} {{thing.description}}
c# - 架构/设计模式问题
昨天我和我的伙伴讨论了我正在开发的这个电子购物网站的架构。请注意，我为此使用 ASP.NET。他非常惊讶地发现我没有将添加到购物车的项目保留在 ArrayList 或其他通用列表中，而是使用 LINQ
tridion - 隐藏继承的内容/架构
我正在使用在 tridion 蓝图层次结构中处于较低位置的出版物。从蓝图中较高级别的出版物继承的一些内容和模式不适合我的出版物，并且永远不会被我的出版物使用。我将跟进添加这些项目的内部团队，并尝试说
java - Cassandra 架构
我目前已经在 Cassandra 中设计了一个架构，但我想知道是否有更好的方法来做事情。基本上，问题在于大多数(如果不是全部)读取都是动态的。我构建了一个分段系统作为应用程序服务，读取动态自定义查询(
Icinga2 IDO 架构
我正在按照 documentation 中给出的 icingaweb UI v 2.0 布局执行在服务器上设置 icinga 的步骤。。我成功进入设置页面，该页面要求您输入 token ，然后按照步
java - Mongodb 架构
我必须保存来自不同社交媒体的用户的不同个人资料。例如用户可能有 1 个 Facebook 和 2 个 Twitter 个人资料。如果我保存每个配置文件它作为新文档插入不同的集合中，例如 faceboo
适用于多个应用程序的多个环境的 Puppet 架构
我的团队使用 Puppet 架构，该架构目前可在多个环境(流浪者、暂存、生产)中容纳单个应用程序。我们现在想要扩展此设置的范围以支持其他应用程序。他们中的许多人将使用我们已经定义的现有模块的子集，而

首页

博学

6Ren·AI

商城

docker - 如何使用 docker-compose 在分布式 Airflow 架构上配置 celery worker？