gpt4 book ai didi

google-bigquery - BigQuery : Pricing for Querying parquet files, 作为外部数据源,来自 Coldline Cloud Storage 类

转载 作者:行者123 更新时间:2023-12-04 10:01:44 27 4
gpt4 key购买 nike

BigQuery 允许查询各种存储类别中的外部表,including Coldline .
从 Coldline 访问数据有一个数据 retrieval fee .

Parquet 格式文件提供柱状存储。通过 BigQuery 从 Coldline GCS 访问 Parquet 格式文件时,数据检索成本是基于查询的数据列还是整个 Parquet 文件?

最佳答案

为了首先解决问题的简单部分,BigQuery charges基于为所有需要读取的文件读取的列的逻辑(未压缩)大小。如果您在具有 1M 行的文件中读取整数字段“foo”,您将获得 8MB(每 int * # 行 8 个字节)的费用。

如果由于 Hive 分区修剪或 Parquet header 包含表明该文件不是查询所必需的信息而可以跳过某个文件,则扫描该文件不会产生任何费用。

您问题的另一部分是关于 Coldline 的读取计费。如果您在 BigQuery 中从冷线读取,则无需为冷线读取付费。也就是说,请不要指望这种情况会长期存在。谷歌内部正在讨论如何弥补这个漏洞。

将来,当对冷线读取收费时,很可能如下:运行查询所需的物理字节总量将被收费。

Parquet 文件具有包含文件元数据的标题,然后是具有自己的元数据和列的块。要读取 Parquet 文件,您需要读取文件标题、块标题和列。根据过滤器的不同,某些块可能是可跳过的,在这种情况下,您不会被收取费用。另一方面,某些查询可能需要多次读取同一个文件(例如自联接)。物理读取大小将是每次读取文件时读取的所有字节的总和。

关于google-bigquery - BigQuery : Pricing for Querying parquet files, 作为外部数据源,来自 Coldline Cloud Storage 类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61785123/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com