gpt4 book ai didi

google-bigquery - 云数据流 : Generating tables in BigQuery

转载 作者:行者123 更新时间:2023-12-02 03:05:28 27 4
gpt4 key购买 nike

我有一个从 Cloud Pub/Sub 读取流数据的管道,该数据由 Dataflow 处理,然后保存到一个大型 BigQuery 表中,每个 Pub/Sub 消息都包含一个关联的 account_id。当识别出新的 account_id 时,有没有办法即时创建新表?然后用关联的 account_id 中的数据填充它们?

我知道这可以通过为每个新帐户更新管道来完成。但在理想情况下,Cloud Dataflow 会以编程方式在代码中生成这些表。

最佳答案

想分享我看到的几个选项

选项 1 - 等待 Partition on non-date field特色
目前还不知道这将在何时实现并可供我们使用,因此它可能不是您现在想要的。但是什么时候上线——这将是这种情况下的最佳选择

选项 2 – 您可以想出将您的 account_id 散列到预定义数量的桶中。在这种情况下,您可以预先创建所有这些表,并且在您的代码中具有根据帐户哈希处理相应目标表的逻辑。与查询该数据的查询中需要使用的散列逻辑相同

关于google-bigquery - 云数据流 : Generating tables in BigQuery,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43043686/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com