- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
给定一个 DAG
有一个 start_date
,它在特定日期运行,相应的 DAGRun 的
定义了吗?execution_date
是怎样的
我已阅读 documentation但是一个例子让我感到困惑:
"""
Code that goes along with the Airflow tutorial located at:
https://github.com/airbnb/airflow/blob/master/airflow/example_dags/tutorial.py
"""
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from datetime import datetime, timedelta
default_args = {
'owner': 'airflow',
'depends_on_past': False,
'start_date': datetime(2015, 12, 1),
'email': ['airflow@example.com'],
'email_on_failure': False,
'email_on_retry': False,
'retries': 1,
'retry_delay': timedelta(minutes=5),
'schedule_interval': '@hourly',
}
dag = DAG('tutorial', catchup=False, default_args=default_args)
假设 DAG
在 2016-01-02 早上 6 点运行,第一个 DAGRun
的 execution_date
为 2016- 01-01 并且如文档中所述
the next one will be created just after midnight on the morning of 2016-01-03 with an execution date of 2016-01-02
这是我将如何设置 execution_date
:
DAG
将其 schedule_interval
设置为每小时并在 2016 年 1 月 2 日早上 6 点运行,execution_date
第一个 DAGRun
将设置为 2016-01-02 早上 7 点,第二个设置为 2016-01-02 早上 8 点......等等。
最佳答案
这就是 Airflow 中调度的工作原理。当您考虑正常的 ETL 批处理过程如何运行以及如何使用 execution_date
来获取已更改的增量记录时,我认为按照 Airflow 的方式进行操作是有意义的。
假设我们想要安排一个批处理作业每晚运行以从某个源数据库中提取新记录。我们想要从 2018 年 1 月 1 日起更改的所有记录(我们也希望所有记录在 1 日更改)。为此,您可以将 DAG 的开始日期设置为 2018 年 1 月 1 日,调度程序将运行多次,但是当它到达 2018 年 2 月 1 日(或之后不久)时,它将运行我们的 DAG 执行日期
,2018 年 1 月 1 日。
现在我们可以使用 JINJA 模板将 SQL 语句发送到源数据库,它使用 execution_date
作为 SQL 的一部分。 SQL 看起来像这样:
SELECT row1, row2, row3
FROM table_name
WHERE timestamp_col >= {{ execution_date }} and timestamp_col < {{ next_execution_date }}
我认为当你以这种方式看待它时它更有意义,尽管我承认我在一开始试图理解它时遇到了困难。
这里引用自文档 https://airflow.apache.org/scheduler.html :
The scheduler runs your job one schedule_interval AFTER the start date, at the END of the period.
另外值得注意的是,您从文档中查看的示例描述了禁用回填时计划的行为。如果启用回填,如果 DAG 之前从未运行过,那么从 2015 年 12 月到当前日期之间每隔 1 小时就会创建一次 DAG 运行。
关于airflow - DagRun 的 execution_date 是如何设置的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49213263/
我想在触发器 DAG 中设置 execution_date。我正在使用操作符 TriggerDagRunOperator,这个操作符有参数 execution_date,我想设置当前的 executi
在常规的 python 代码中我可以这样做: import time int(time.time()) 这给了我作为纪元的时间。我希望能够使用 Airflow 宏执行此操作:execution_dat
给定一个 DAG 有一个 start_date,它在特定日期运行,相应的 DAGRun 的 execution_date 是怎样的 定义了吗? 我已阅读 documentation但是一个例子让我感到
这是我的代码: EXEC_TIMESTAMP = "{{ execution_date.strftime('%Y-%m-%d %H:%M') }}" query = """ se
在 Airflow 中,我想每周一上午 8 点运行一次 dag(execution_date 当然应该是“当天星期一上午 8 点”)。为此工作流程设置的相关参数是: 开始日期:“2018-03-19”
最近我对 Airflow 进行了太多测试,以至于 execution_date 有一个问题运行时 airflow trigger_dag . 我了解到 execution_date不是我们第一次从h
来自 cron 的 Airflow 的新手,试图了解 execution_date 宏如何应用于调度系统以及何时手动触发。我已经阅读了常见问题解答,并根据我预期的时间表设置了执行时间,并填写了正确的
在这个答案的帮助下 https://stackoverflow.com/a/41730510/4200352我正在执行一个 python 文件。 我使用 PythonOperator 并尝试将执行日期
假设我有一个 easteregg.py 文件: from airflow import DAG from dateutil import parser from datetime import tim
我是一名优秀的程序员,十分优秀!