gpt4 book ai didi

google-bigquery - 定期更新的 bigquery 数据库中的记录顺序

转载 作者:行者123 更新时间:2023-12-01 10:53:21 24 4
gpt4 key购买 nike

我将在 bigquery 上维护数据库的本地副本。我将使用 API 和 tabledata:list。这个数据库不是我自己的,维护者会通过附加新数据(比如每小时)定期更新。

  • 首先,我可以假设当附加这些数据时,它会绝对被添加到数据库的末尾?
  • 现在,让我们假设当前数据库有 1,000,000 行,我现在通过对 tabledata:list 进行分页来下载所有这些行。此外,我们假设数据库在中途更新(有 10,000 行)。通过使用页面 token ,我可以确保我只会按照它们在数据库中的顺序开始下载存在的 1m 行吗?
  • 最后,现在让我们说我来更新我的副本。如果我以 1,000,000 的 startIndex 启动 tabledata:list 并且我使用的 maxResults 为 1000,我会得到 10 页包含我期望的更新数据吗?

  • 我想所有这些问题都归结为 bigquery 是否尊重数据的顺序,tabledata:list 是否使用此顺序,以及附加数据是否保证遵循先前的数据。

    因为有一列的值是唯一的,我可以执行一个简单的 select count(1) from table为了获得表的长度,我当然可以通过比较本地数据库的长度与远程数据库的长度来检查我的本地副本是否完整,但是如果不能保证上述内容并且我最终在我的数据中有漏洞,因为主键不是顺序的(否则我只能填写缺失的行)并且数据库非常大,所以补救是非常不切实际的。

    最佳答案

  • 当您追加数据时,我们将追加到表数据列表的末尾,但是,bigquery 可能会定期合并数据,这不尊重排序。我们一直在讨论能够保留排序,或者至少有一种访问最新数据的方法,但这尚未实现或设计。如果它对您来说是一项重要功能,请告诉我们,我们会相应地优先考虑它。
  • 如果您使用页面 token ,则可以确保获得稳定的列表。如果表在数据分页过程中得到更新,您仍然只能看到创建页面 token 时表中的数据。请注意,因此,页面 token 仅在 24 小时内有效。
  • 只要自从您更新表以来没有发生合并,这应该有效。

  • 您可以通过调用tables.get 来获取表中的行数,这通常比运行查询更简单、更快。

    关于google-bigquery - 定期更新的 bigquery 数据库中的记录顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16854116/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com