gpt4 book ai didi

google-app-engine - 在 BigQuery 之上设计 API

转载 作者:太空宇宙 更新时间:2023-11-03 15:36:25 26 4
gpt4 key购买 nike

我有一个 AppEngine 应用程序可以跟踪用户在多个网站上的各种印象数据。目前,我们每月收集大约 4000 万条记录,BigQuery 主表在收集数据 6 周后接近 15Gb,我们的估计显示再过 6 周,我们每月将收集超过 1 亿条记录。就大数据而言,这是一个相对较小的数据集,但具有增长相当快的潜力。

现在面对成功的试验,我们需要开发一个位于 BigQuery 之上的 API,使我们能够分析数据并将结果传送到我们提供的仪表板。

我担心的是,客户分析的大部分数据最多只持续几天(每个请求),而且由于 BigQuery 查询实际上是全表扫描,API 的响应速度可能会随着时间的推移而变慢表的大小增加,BQ 需要处理更多数据才能返回结果。

因此我的问题是这样的。我们是否应该按月或按周对 BigQuery 日志表进行分片,以减少需要处理的数据,或者预处理数据并将结果存储在 NDB 数据存储中是否“更明智”?这将产生一个非常快速的 API,但需要我们对所有内容进行预处理,甚至是一些客户可能永远不需要的东西。

或者我可能过早优化了?

最佳答案

根据我在 BigQuery 中分析类似项目性能的经验。如果您只关心性能,那么您不必更改任何内容。 BigQuery 的优化器可以解决很多问题,如果查询只使用 WHERE 几天 - 性能会很好。但从计费的角度来看,随着数据的增长,你支付的费用会越来越多,所以为了省钱——按月甚至按周对数据进行分片是明智的。使用 TABLE_RANGE,您仍然可以在需要时查询所有数据,因此您不会失去任何功能。

关于google-app-engine - 在 BigQuery 之上设计 API,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30818094/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com