gpt4 book ai didi

google-bigquery - 提取 BigQuery 分区表

转载 作者:行者123 更新时间:2023-12-03 20:15:21 25 4
gpt4 key购买 nike

有没有办法用一个命令提取完整的 BigQuery 分区表,以便将每个分区的数据提取到格式为 part_col=date_yyyy-mm-dd 的单独文件夹中

由于 Bigquery 分区表可以从 hive 类型的分区目录中读取文件,有没有一种方法可以以类似的方式提取数据。我可以单独提取每个分区,但是当我提取很多分区时这非常麻烦

最佳答案

您可以以编程方式执行此操作。例如,您可以 export partitioned data by using the partition decorator如表$20190801。然后在 bq extract 命令上你可以使用 URI Patterns (查看 worker 模式的示例)用于 GCS 对象。

由于所有对象都在同一个存储桶中,文件夹只是 an hierarchical illusion ,因此您也可以在文件夹上指定 URI 模式,但不能在存储桶上指定。

因此,您将执行一个脚本,在其中循环 DATE 值,例如:

bq extract 
--destination_format [CSV, NEWLINE_DELIMITED_JSON, AVRO]
--compression [GZIP, AVRO supports DEFLATE and SNAPPY]
--field_delimiter [DELIMITER]
--print_header [true, false]
[PROJECT_ID]:[DATASET].[TABLE]$[DATE]
gs://[BUCKET]/part_col=[DATE]/[FILENAME]-*.[csv, json, avro]

您不能仅使用 bq 命令自动执行此操作。为此,最好是 raise a feature request正如 Felipe 所建议的那样。

关于google-bigquery - 提取 BigQuery 分区表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56854867/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com