gpt4 book ai didi

python - 在 Python 的 Airflow 中,如何在特定时间后停止任务运行?

转载 作者:行者123 更新时间:2023-11-28 21:47:38 25 4
gpt4 key购买 nike

我正在尝试使用 Python 的 Airflow 库。我希望它定期抓取网页。

我遇到的问题是,如果我的 start_date 是几天前,当我启动调度程序时,它将从 start_date 回填到今天。例如:

假设今天是该月的 20 号。

假设 start_date 是这个月的 15 号。

如果我在 20 日启动调度程序,它将在 20 日抓取页面 5 次。它将看到一个 DAG 实例假设在 15 日运行,并将在 20 日运行该 DAG 实例(15 日的实例)。然后它会在 20 日运行 16 日的 DAG 实例,以此类推。

简而言之,Airflow 将尝试“ catch ”,但这对网页抓取没有意义。

有什么方法可以让 Airflow 在特定时间后认为 DAG 实例失败?

最佳答案

此功能在 Airflow 的路线图中,但目前不存在。

参见: Issue #1155

您可以使用 BranchPythonOperator 组合出一个解决方案.正如文档中所说,确保您已设置 depends_on_past=False(这是默认设置)。我没有设置 Airflow ,所以我现在无法测试并为您提供示例代码。

关于python - 在 Python 的 Airflow 中,如何在特定时间后停止任务运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36288447/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com