gpt4 book ai didi

google-bigquery - Bigquery 上 ETL 的最佳实践方法?

转载 作者:行者123 更新时间:2023-12-04 19:57:19 25 4
gpt4 key购买 nike

我想知道人们发现了哪些用于在 bigquery 上构建和管理 ETL 作业的最佳实践/工具。

目前我有很多 sql"template"(通过 lob、date 等可怕地参数化,使用 sed 类型字符串替换到 tmp.sql 文件中,然后运行它),我使用命令行工具运行它们的序列并将输出发送到表。它工作正常,但变得有点笨拙。我仍然不明白为什么我不能在 bigquery 上运行存储过程类型的参数化脚本。或者甚至是某种 gui 来构建和管理管道。

我喜欢 bigquery,但我真的觉得我在这里遗漏了一些非常明显的东西,或者它在产品中存在真正的差距(例如,很确定 Apache Drill 在这方面更加完善)。

所以只是想知道是否有人可以分享您自己使用的任何最佳实践 etl 技巧或方法。

我也确实将 xplenty 用于某些工作,这很好,但它也有点困惑,因为我不能只在其中编写 sql,因此构建和调试复杂的管道会很痛苦。

我也在考虑研究 Talend,但真正参数化的存储过程、宏和 SQL 是我理想中所需要的。

抱歉,如果这更像是一个讨论问题而不是特定代码。很高兴将其移至 reddit 或其他更适合的地方。

最佳答案

在我看来,Google Cloud Dataflow 比 BigQuery 更能满足您的需求。我们将其用于具有自动缩放功能的实时流式 ETL。效果很好,但您需要编写 Java 代码。

关于google-bigquery - Bigquery 上 ETL 的最佳实践方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36955393/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com