gpt4 book ai didi

Airflow 1.9.0 - 任务执行之间的长时间延迟

转载 作者:行者123 更新时间:2023-12-02 20:42:22 25 4
gpt4 key购买 nike

我最近从 v1.7.1.2 升级到 v1.9.0,升级后我注意到 CPU 使用率显着增加。经过一番挖掘后,我找到了这两个调度程序配置选项:min_file_process_interval(默认为 0)和 max_threads(默认为 2)。

正如预期的那样,增加 min_file_process_interval 可以避免紧密循环并在空闲时降低 CPU 使用率。但我不明白的是为什么 min_file_process_interval 会影响任务执行?

如果我将 min_file_process_interval 设置为 60 秒,它现在在执行 DAG 中的每个任务之间等待的时间不少于 60 秒,因此,如果我的 dag 有 4 个连续任务,它现在会增加 4 分钟的执行时间。例如:

start -> [task1] -> [task2] -> [task3] -> [task4]
^ ^ ^ ^
60s 60s 60s 60s

我在测试环境和生产环境中设置了 Airflow 。这在我的产品环境中不是什么问题(尽管仍然令人担忧),但对于我的测试环境来说是一个大问题。升级后,CPU 使用率显着升高,因此我要么接受更高的 CPU 使用率,要么尝试使用更高的配置值来降低它。但是,这会显着增加我的测试 dags 执行时间。

为什么 min_file_process_interval 会影响 DAG 调度后任务之间的时间?还有其他配置选项可以解决我的问题吗?

最佳答案

您可能想要研究的另一个选项是

SCHEDULER_HEARTBEAT_SEC

此设置通常也设置为非常紧的间隔,但也可以放松一点。此设置与

结合使用
MAX_THREADS

帮我们解决了这个问题。开发机器的速度足够快,可以重新部署,但没有发热的 CPU,这很好。

关于Airflow 1.9.0 - 任务执行之间的长时间延迟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50012952/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com