gpt4 book ai didi

google-bigquery - 如何将压缩文件加载到 BigQuery

转载 作者:行者123 更新时间:2023-12-04 19:06:08 24 4
gpt4 key购买 nike

我想从 http://dumps.wikimedia.org/other/pagecounts-raw/ 上传维基百科的综合浏览量进入 BigQuery,最快的方法是什么?

最佳答案

这是我做的一个经典演示,用于展示将数据加载到 BigQuery 中是多么容易。
要从 Wikipedia 获得一小时的综合浏览量,只需 wget 文件:

wget http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-06/pagecounts-20140602-180000.gz
然后将其加载到 BigQuery(应该花费更少或大约 5 分钟):
bq load -F" " --quote "" fh-bigquery:wikipedia.pagecounts_20140602_18 pagecounts-20140602-180000.gz language,title,requests:integer,content_size:integer
请注意,此文件的压缩大小约为 100MB (gz),您无需解压缩此大小的文件即可将它们加载到 BigQuery。它包含大约 800 万行每小时的浏览量计数。
  • -F" " : 此文件以空格分隔,而不是逗号。
  • --quote "" :此文件不使用字符串引号。
  • fh-bigquery:wikipedia.pagecounts_20140602_18:将加载文件的 BigQuery 数据集的名称。
  • pagecounts-20140602-180000.gz:从维基媒体下载的gz文件的名称。
  • language,title,requests:integer,content_size:integer : 列。默认情况下,所有内容都作为字符串加载,除非我们将其显式转换为不同的类型(在本例中为整数)。

  • (需要之前安装 bq tool )
    我公开了这个数据集,你可以在 https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_20140602_18 找到这个表.
    我还在 https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.wikipedia_views_201308 上留下了所有 8 月的综合浏览量。 (如果您是 SELECT SUM(requests) FROM [fh-bigquery:wikipedia.wikipedia_views_201308],则浏览量为 530 亿次。

    关于google-bigquery - 如何将压缩文件加载到 BigQuery,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24131380/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com