- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 Google Cloud Composer(版本:composer-1.10.2-airflow-1.10.6)上使用 Airflow 。
我意识到当有很多任务要处理时,我的调度程序不会安排任务(参见下面的甘特图)
(不要注意颜色,红色任务是“createTable Operators”,如果表已经存在则失败,因此在 DAG 的下一部分(重要部分)运行之前它们必须失败 5 次)
任务之间有时间间隔! (例如上午 10 点到下午 15 点之间的 5 个小时没有任何反应)
通常它可以很好地处理大约 40 个 DAG,每个 DAG 大约有 100-200 个任务(有时更多)。但最近我添加了 2 个有很多任务的 DAG(每个大约 5000 个)并且调度程序非常慢或者不调度任务。在屏幕截图上,我在下午 15 点暂停了 2 个有很多任务的 DAG,调度程序又回来了,工作正常。
你有什么解决办法吗?
Airflow 旨在成为处理“无限”数量任务的工具。
以下是有关我的环境的一些信息:
这里有一些关于 Airflow 配置的信息:
╔════════════════════════════════╦═══════╗
║ Airflow parameter ║ value ║
╠════════════════════════════════╬═══════╣
║ -(celery)- ║ ║
║ worker_concurrency ║ 32 ║
║ -(webserver)- ║ ║
║ default_dag_run_display_number ║ 2 ║
║ workers ║ 2 ║
║ worker_refresh_interval ║ 60 ║
║ -(core)- ║ ║
║ max_active_runs_per_dag ║ 1 ║
║ dagbag_import_timeout ║ 600 ║
║ parallelism ║ 200 ║
║ min_file_process_interval ║ 60 ║
║ -(scheduler)- ║ ║
║ processor_poll_interval ║ 5 ║
║ max_threads ║ 2 ║
╚════════════════════════════════╩═══════╝
谢谢你的帮助
编辑:
我的 26 个 DAG 是由单个 .py 文件创建的,它通过解析一个巨大的 JSON 变量来创建所有 DAG 和任务。
也许问题来自于此,因为今天 Airflow 正在调度其他 DAG 的任务,而不是我描述的 26 个(尤其是 2 个大 DAG)。更准确地说,Airflow 有时会安排我的 26 个 DAG 的任务,但它更容易、更频繁地安排其他 DAG 的任务。
最佳答案
高任务间延迟通常表明存在与调度程序相关的瓶颈(而不是与工作人员相关的瓶颈)。即使一遍又一遍地运行相同的 DAG,Composer 环境仍然可能遇到这样的性能瓶颈,因为每次的工作分配可能不同,或者可能有不同的进程在后台运行。
首先,我建议增加调度程序可用的线程数 (scheduler.max_threads
),然后确保您的调度程序不会占用其所在节点的所有 CPU。您可以通过确定调度程序所在节点的位置,然后在 Cloud Console 中检查来检查调度程序所在节点的 CPU 指标。要查找节点名称:
# Obtain the Composer namespace name
kubectl get namespaces | grep composer
# Check for the scheduler
kubectl get pods -n $NAMESPACE -o wide | grep scheduler
如果上述方法没有帮助,那么也可能是调度器故意阻塞某个条件。要检查调度程序检查要运行的任务时评估的所有条件,请设置 core.logging_level=DEBUG
。在调度程序日志(您可以在 Cloud Logging 中对其进行过滤)中,您可以检查所有通过或失败的条件,以便任务运行或保持排队。
关于airflow-scheduler - 大量任务时, Airflow 调度器不调度(或缓慢),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62197009/
在Airflow中,我一直在使用“airflow run”和“airflow test”,但不完全理解它们有何不同。他们有什么区别? 最佳答案 我自己通读了文档,发现它是多么令人困惑。 Airflow
我使用 Airflow 已经有一段时间了,它是由一位同事创建的。最近我遇到了一些错误,这需要我更深入地了解如何修复 Airflow 中的某些问题。 我确实理解这三个进程是什么,但我只是不明白运行它们时
AIRFLOW_HOME=/path/to/my/airflow_home 我收到这个警告... >airflow trigger_dag python_dag3 /Users/alexryan/mi
有没有人报告过他们在他们的公司中让 Airflow 扩展了多少?我正在考虑实现 Airflow 来执行 5,000 多个任务,每个任务每小时运行一次,有一天可以将其扩展到 20,000 多个任务。在检
问题 :我想使用 Github 上最新版本的 Apache-Airflow 安装 apache-airflow 以及所有依赖项? 我怎样才能使用 pip 做到这一点? 在生产环境中使用它是否安全? 最
我们在 AWS ECS 上运行 Airflow,并将所有 DAG 捆绑在一个 Docker 镜像中。我们不时更新 DAGS,并部署新版本的 Docker Image。当我们这样做时,ECS 将终止正在
问题很简单。我需要限制 Airflow 网络用户仅查看和执行某些 DAG 和任务。 如果可能,我宁愿不使用 Kerberos也不是 OAuth . Multi-tenancy option 似乎是一个
我们正在使用 Airflow 2.00。我正在尝试实现一个做两件事的 DAG: 通过 API 触发报告 从源到目标下载报告。 任务 1 和任务 2 之间至少需要 2-3 小时的间隔。根据我的研究,我有
对于一项任务,有许多辅助任务 - 从文件/数据库中获取/保存属性、验证、审计。这些辅助方法并不耗时。 一个示例 DAG 流, fetch_data >> actual_processing >> va
有什么方法可以重新加载作业而不必重新启动服务器吗? 最佳答案 在airflow.cfg中,您具有以下两种配置来控制此行为: # after how much time a new DAGs shoul
我们可以通过将任务/dag 超时设置为 None 并手动触发其运行来使用 Airflow dag 来定义永无止境的作业(即具有无条件循环以消耗流数据的任务)吗?让 Airflow 监测永无止境的任务会
我是 Airflow 的新手,最近开始探索这个工具。我在 18.4 版本的 ubuntu 机器上安装了 1.10.10 版。从设置和安装的角度来看,一切正常,但是我在任何 DAG 中的任务都没有运行,
我主要看到Airflow被用于ETL / Bid数据相关的工作。我正在尝试将其用于业务工作流,其中用户操作将来会触发一组相关任务。其中某些任务可能需要根据某些其他用户操作来清除(删除)。 我认为最好的
我有一个 DAG,只要 FileSensor 检测到文件,它就会使用它,为每个文件生成任务,以 (1) 将文件移动到暂存区域,(2) 触发单独的 DAG 来处理文件。 FileSensor -> Mo
我需要手动或以编程方式执行的管道,可以使用 Airflow 吗?看起来现在每个工作流程都必须与时间表绑定(bind)。 最佳答案 只需在创建 DAG 时将 schedule_interval 设置为
所以这是一个愚蠢的想法...... 我在 Airflow 中创建了(许多)DAG...并且它有效...但是,我想以某种方式将其打包,以便我可以在不安装 Airflow 的情况下运行单个 DAG 运行;
我使用“pip install 'apache-airflow[statsd]' 安装了 airflow[statsd] 并安装了 statsd_exporter。现在我可以看到来自 Promethe
我们正在尝试将 MongoHook 和 GCSToLocalFilesystemOperator 导入到我们的 Airflow 项目中: docs for MongoHook docs for GCS
启动 Airflow 网络服务器时出现以下错误 balajee@Balajees-MacBook-Air.local:~$ Airflow 网络服务器 -p 8080 [2018-12-03 00:2
运行pip install airflow[postgres]命令后出现以下错误: > raise RuntimeError("By default one of Airflow's dependen
我是一名优秀的程序员,十分优秀!