gpt4 book ai didi

google-cloud-platform - Cloud SQL 到 BigQuery 增量式

转载 作者:行者123 更新时间:2023-12-04 02:39:44 32 4
gpt4 key购买 nike

我需要为我正在处理的用例之一提供一些建议。

用例:

我们在 Cloud SQL 中有大约 5-10 个表的数据,有些被视为查找,有些被视为事务性的。我们需要以某种方式将其提供给 BigQuery,从中制作 3-4 个表(扁平化、嵌套或非规范化),这些表将用于 Data Studio、Looker 等中的报告。

数据应该以增量方式处理,并且 Cloud SQL 中的更改可能每 5 分钟发生一次,这意味着数据应该可以近乎实时地用于 BigQuery 报告。如果可能,我们还应该维护数据更改的历史记录。

解决方案:

我们在 BigQuery 中保留了 3 层,因此来自 Cloud SQL 的数据来到第一层,然后在展平后将其保存到第二层(维护历史记录),然后将其处理插入第三层(报告)。 问题这种方法的原因是它是为日常处理而开发的,无法帮助处理 Cloud SQL 中每 5 分钟更改一次的数据。

欢迎任何建议。

注意:- 我们需要使用 Dataflow、VM 或其他方式来进行一些逻辑处理,这意味着我们不能只使用计划查询,因为我们不能使用查询来处理所有逻辑,但是可以使用 View 和代码的混合。

最佳答案

这比您想象的更简单:BigQuery 可以直接从您的 Cloud SQL 中读取数据。

文档:

  • https://cloud.google.com/bigquery/docs/cloud-sql-federated-queries

  • 更多阅读:
  • https://medium.com/google-cloud/loading-mysql-backup-files-into-bigquery-straight-from-cloud-sql-d40a98281229

  • 因此,您需要做的就是编写一个 MySQL 查询来查找过去 5 分钟内的所有更改。您可以在 BigQuery 中运行此查询 - 并使用如下查询将所有数据具体化到 BigQuery 中:

    INSERT INTO `dataset.table`

    SELECT *
    FROM EXTERNAL_QUERY(
    'your.CloudSql.database'
    , 'SELECT * FROM users')

    关于google-cloud-platform - Cloud SQL 到 BigQuery 增量式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59941821/

    32 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com