gpt4 book ai didi

google-bigquery - BigQuery 中记录类型与展平表的查询性能

转载 作者:行者123 更新时间:2023-12-01 01:21:45 24 4
gpt4 key购买 nike

我有一个包含“订单”和“订单行”的表格,它们以 JSON 形式出现,将其作为 JSON 存储在 BigQuery 中很简单。 .我可以运行一个进程将文件展平为行,但这是一种负担,并且会使 BigQUery 表变大。

BigQuery 的最佳性能结构是什么?假设我对金额或产品以及订单行中的销售额有疑问。

记录列中“记录”(或“订单行”)数量的最佳做法是什么?它可以包含数千个还是针对几个?假设我会像在 MongoDB 中那样查询它基于文档的数据库。

这将帮助我规划正确的架构。

最佳答案

BigQuery 的列式架构旨在以高性能方式处理嵌套和重复的字段,并且通常可以像这些记录被展平时一样快速地返回查询结果。事实上,在某些情况下,(取决于您的数据和您运行的查询类型)使用已经嵌套的记录实际上可以让您避免附加额外步骤的子查询。

简短回答:不要担心扁平化,将数据保持在嵌套结构中,查询性能通常是相同的。

但是,关于您的第二个问题:您的记录限制将取决于您可以在单个记录中存储多少数据。当前 BigQuery 的 per row maximum is 100MB .您可以在一条记录中有很多很多重复的字段,但它们需要符合此限制。

关于google-bigquery - BigQuery 中记录类型与展平表的查询性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13196568/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com