gpt4 book ai didi

google-bigquery - 消除BigQuery表中的重复记录

转载 作者:行者123 更新时间:2023-12-04 04:18:16 29 4
gpt4 key购买 nike

我计划每天将增量数据附加到BigQuery表中。每次我向现有表中添加增量数据时,我都希望从表中的现有数据中消除重复的记录(基于主键列)。
一种方法是-

  • 从增量数据中收集 key 集(我们称其为INCR_KEYS)
  • 在-SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS)-的行上运行查询,并将结果存储在新表中。
  • 将增量数据追加到新表中。

  • 我对这种方法的担心是,它会创建一个大表的副本,并将其添加到我的账单中。

    是否有更好的方法可以在不创建重复表的情况下实现相同目的?

    最佳答案

    我不知道如何在不创建重复表的情况下执行此操作-这实际上听起来像是一个非常聪明的解决方案。

    但是,您的增量成本可能很小-BigQuery仅在数据存在的时间范围内向您收取数据费用。如果您删除旧表,则只需为这两个表支付几秒钟或几分钟的时间。

    关于google-bigquery - 消除BigQuery表中的重复记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12346896/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com