gpt4 book ai didi

python - 如何防止 Airflow 回填 dag 运行?

转载 作者:IT老高 更新时间:2023-10-28 21:37:53 24 4
gpt4 key购买 nike

假设您有一个 Airflow DAG,回填没有意义,这意味着,在它运行一次之后,再快速运行它之后的时间将完全没有意义。

例如,如果您从某个仅每小时更新一次的来源将数据加载到数据库中,那么快速连续发生的回填只会一次又一次地导入相同的数据。

当您实例化一个新的每小时任务时,这尤其令人讨厌,并且它会运行 N 次,因为它错过的每一个小时,都会做多余的工作,然后才开始按照您指定的时间间隔运行。

我能想到的唯一解决方案是他们在 FAQ of the docs 中明确反对的方法。

We recommend against using dynamic values as start_date, especially datetime.now() as it can be quite confusing.

有什么方法可以禁用 DAG 的回填,或者我应该执行上述操作吗?

最佳答案

升级到 Airflow 版本 1.8 并在 Airflow .cfg 中使用 catchup_by_default=False 或将 catchup=False 应用于每个 dag。

https://github.com/apache/incubator-airflow/blob/master/UPDATING.md#catchup_by_default

关于python - 如何防止 Airflow 回填 dag 运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38751872/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com