gpt4 book ai didi

google-bigquery - Google BigQuery定价

转载 作者:行者123 更新时间:2023-12-04 05:18:29 26 4
gpt4 key购买 nike

我是新加坡管理大学的博士生。目前,我正在卡内基梅隆大学从事一项研究项目,该项目需要来自Github Archive(http://www.githubarchive.org/)的历史事件。我注意到Google Bigquery具有Github存档数据。因此,我运行了一个使用Google Bigquery服务对数据进行爬网的程序。

我只是发现控制台上显示的Google bigquery的价格没有实时更新...当我开始运行该程序几个小时时,费用仅为4美元,所以我认为这个价格合理,我一直在运行程序。 1〜2天后,我在2013年9月13日再次检查了价格,价格变成了1388美元...因此,我立即停止使用Google bigquery服务。而现在我再次检查了价格,原来我需要支付4179美元...

我的错是我没有意识到我需要为执行查询和从Google bigquery获取数据而花这么大的钱。

该项目仅用于研究,不能用于商业目的。我想知道是否可以免收这笔费用。我真的需要[Google Bigquery小组]的帮助。

非常感谢。致以最诚挚的问候,
丽莎

最佳答案

一年后更新:

请注意自这种情况以来的一些重大发展:

  • 查询价格下跌了85%。
  • GithubArchive现在正在发布每日和每年的表格-因此在开发查询时始终在较小的数据集上对其进行测试。


  • BigQuery的定价基于查询的数据量。它的亮点之一是扩展的难易程度,可以在几秒钟内从几GB扫描到TB。

    线性定价是一个功能:据我所知,大多数(或所有?)其他数据库将需要成倍增加的资源,或者只是无法处理这些数据量-至少在合理的时间范围内。

    也就是说,线性缩放意味着TB级查询的成本是千兆字节级查询的1000倍。 BigQuery用户需要意识到这一点并做出相应的计划。出于这些目的,BigQuery提供了“空运行”标志,该标志使您可以在运行查询之前准确查看要查询的数据量并相应地进行调整。

    在这种情况下,WeiGong正在查询一个105 GB的表。十个 SELECT * LIMIT 10查询将很快达到TB的数据量,依此类推。

    有几种方法可以使这些相同的查询消耗更少的数据:
  • 而不是查询SELECT * LIMIT 10,仅调用您要查找的列。 BigQuery会根据您要查询的资料栏收费,因此拥有不必要的资料栏会增加不必要的费用。

  • 例如, SELECT * ...查询105 GB,而 SELECT repository_url, repository_name, payload_ref_type, payload_pull_request_deletions FROM [githubarchive:github.timeline]仅查询8.72 GB,这使查询的成本降低了10倍以上。
  • 在下载整个表时,请使用tabledata.list而不是“SELECT *”。免费。
  • Github存档表包含所有时间的数据。如果只想查看一个月的数据,请对其进行分区。

  • 例如,使用查询提取所有一月份的数据将留下仅91.7 MB的新表。查询该表的费用比大型表便宜一千倍!
    SELECT *
    FROM [githubarchive:github.timeline]
    WHERE created_at BETWEEN '2014-01-01' and '2014-01-02'
    -> save this into a new table 'timeline_201401'

    结合使用这些方法,您可以从4000美元的钞票到4美元的钞票,获得相同数量的快速而深刻的结果。

    (我正在与Github归档的所有者合作,让他们存储月度数据,而不是一个整体表,以使其变得更加容易)

    关于google-bigquery - Google BigQuery定价,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18834196/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com