airflow - 如何在不复制我们的仓库的情况下在 Airflow 中运行 DBT-6ren

airflow - 如何在不复制我们的仓库的情况下在 Airflow 中运行 DBT

转载作者：行者123 更新时间：2023-12-03 23:33:40

27

4

我们将 DBT 与 GCP 和 BigQuery 结合使用在 BigQuery 中进行转换，这是安排我们每天的最简单方法 run dbt好像是BashOperator在 Airflow 中。目前我们有两个独立的目录/github 项目，一个用于 DBT，另一个用于 Airflow。为了安排 DBT 与 Airflow 一起运行，似乎我们的整个 DBT 项目需要嵌套在我们的 Airflow 项目中，这样我们就可以为我们的 dbt run 指向它。 bash 命令？
是否可以触发我们的dbt run和 dbt test不将我们的 DBT 目录移动到我们的 Airflow 目录中？与 airflow-dbt package , 为 dir在 default_args ，也许可以在这里指向 DBT 项目的 Gibhub 链接？

最佳答案

我的建议是将您的 dbt 和 Airflow 代码库分开。
确实有更好的方法:

在一个简单的基于 python 的镜像中 dockerise dbt 项目，您可以在其中复制代码库

将其推送到 DockerHub 或 ECR 或您正在使用的任何其他 docker 存储库

使用 DockerOperator 在您的 Airflow DAG 中使用您的 dbt 代码运行该 docker 镜像

我假设你在这里使用了 Airflow LocalExecutor 并且你想执行你的 dbt run运行 Airflow 的服务器上的工作负载。如果情况并非如此，并且您有权访问 Kubernetes 集群，我建议您改用 KubernetesPodOperator .

关于airflow - 如何在不复制我们的仓库的情况下在 Airflow 中运行 DBT，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64890144/

27

4

0

文章推荐： java - 如何计算带有集合的列表中的项目出现次数？

文章推荐： python - 获取 zarr 数组切片的 View

dbt - dbt 可以显示对非 dbt 表的数据依赖性吗？
我是 dbt 生成的数据沿袭图的忠实粉丝。但是，这仅显示了 dbt 创建的表和 View 之间的关系。有没有办法显示对数据库中“原始”表的依赖关系？比如说，如果我的 dbt 模型创建了一个名为 o
dbt - 为什么 DBT 运行的模型没有在 DBT 运行语句中明确定位？
我有一个 DBT 项目，主要由雪花外部 TableView 的模型组成。每个模型 View 均由单独的 dbt run 语句同时触发。 dbt run --models model_for_view_
dbt - 为什么 DBT 运行的模型没有在 DBT 运行语句中明确定位？
我有一个 DBT 项目，主要由雪花外部 TableView 的模型组成。每个模型 View 均由单独的 dbt run 语句同时触发。 dbt run --models model_for_view_
dbt - dbt 测试可以相互依赖吗？
我想知道我们是否可以创建相互依赖的测试。例如，如果第一个失败，则继续运行第二个，并在测试成功的地方向下跳过测试。如果主要测试通过，目标将是在多余的测试中节省 CPU 消耗。关于如何实现类似目标的任
dbt - 如何使用 DBT 验证查询？
我正在将 DBT 0.19.2 与 DBT-Spark 一起使用，我想知道是否有一种方法可以验证某些最终“语法错误”的查询。假设一个查询引入了一个拼写错误，例如 zelect * from... 而不
dbt - 为正值编写 dbt 测试
是否有一种简单的方法可以为 dbt 中的列为正值编写测试？accepted_values似乎不适用于连续变量。我知道你可以在 ./tests 中写查询但对于这么简单的事情来说，这看起来有点矫枉过正。
environment-variables - DBT - 环境变量和运行 dbt
我对 DBT 比较陌生，我一直在阅读有关 env_var 的内容，我想在一些情况下使用它，但我遇到了困难，正在寻求一些支持。首先，我尝试在我的 profiles.yml 文件中使用它来替换用户和密码
dbt - 选择器未找到 `dbt test` 的节点
我正在尝试定义一个 dbt YAML selector这样我就可以为一组特定的模型运行模式测试。 YAML 选择器看起来有点像这样: selectors: - name: test_selecto
dbt - 大查询 : dbt seed with ARRAY fields
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 11 个月前关闭。 Improve this que
dbt - dbt 中的 "--full-refresh"标记是否会转移到父/子模型？
我正在运行以下命令 dbt run -s +model --full-refresh 其中一些父模型也是增量表。我不确定 --full-refresh 是否也应用于父增量模型或者它们是否增量运行？
dbt - 嗨，我们如何将 select 语句定义为 dbt 中的变量？
嗨，我正在尝试在 dbt 的设置变量中定义一个选择语句，任何人都可以建议如何将 sql 查询设置为 dbt 中的变量以及如何在以下 CTE 中访问这些变量？最佳答案您可以使用 call stat
dbt - 运行 dbt 种子时出现 "Tried to resolve a name to a reference that was unknown to the frame"错误
数据库版本:0.20.1数据库:postgresql代码:https://github.com/josephmachado/simple_dbt_project 运行命令“dbt seed”时，出现错
dbt - DBT 是否支持创建临时表，如 create table #temp1 as select * from tab1 或者它仅适用于 CTE 方式
我找到了一种处理 DBT 中临时表的方法，将所有这些写在预钩中并在预钩外部调用最终临时表，经过测试并且工作正常，能够减少代码运行时间超过 20 分钟到 1 分钟。但是我看到一个问题，我们在 DBT 文
python-3.x - 在 Windows 中安装 Python 3.8 和 dbt 后无法获取 ~/.dbt/folder 或 profiles.yml 文件
我正在使用基于 x64 处理器的 Windows 64 位操作系统 Python 3.8安装在路径C:\UsersMyName\AppData\Local\Programs\Python\Python
dbt 依赖于未找到的源
你能帮我解决这个问题吗？ Encountered an error: Compilation Error in model metrics_model (models\example\metrics_
dbt 无法创建两个具有相同数据库表示的资源
我这里的情况如下: 我的dbt项目中有两个模型 A型 {{ config( materialized='ephemeral', alias='A_0001', schema=v
dbt - 如何运行多标签选择器
我正在使用 dbt 0.18.1 并遵循有关标签的文档，但是我很想知道如何将多标签选择器作为参数运行。根据这个: https://github.com/fishtown-analytics/dbt/
dbt - dbt中特定列数据的增量更新
给定一个包含 20 列的表，我当前的模型已经将所有记录插入表中。但是，我想将我的增量更新重点放在几个专栏上。例如，给定下表模型。我想在新值可用时仅使用新值增量更新 C 列，而不是删除并重新插入整行，
dbt - 如何在DBT中使用Update语句
如何在DBT中使用Update语句？我们使用 DBT 在 Snowflake 中创建了表，但无法使用更新查询来更新同一个表。是否有其他方法可以实现这一目标，例如其他 ELT/ETL 工具？最佳答案
dbt - 不编译运行dbt
是否可以对已编译的代码执行 dbt run 而无需再次运行编译？我有一个项目，编译时间很长，运行时间很短，我必须运行它 1000 次。最佳答案 partial-parse flag 就是你要找的东

首页

博学

6Ren·AI

商城

airflow - 如何在不复制我们的仓库的情况下在 Airflow 中运行 DBT