gpt4 book ai didi

python - 将 BigQuery 数据传输到 amazon s3 存储桶

转载 作者:行者123 更新时间:2023-12-04 01:13:14 40 4
gpt4 key购买 nike

我有一个模式存储在 Big Query 中,我需要将其传输到 amazon s3 存储桶..过程是什么?.. BigQuery 数据来自其他愿意提供适当访问权限以传输数据的组织。我找到了从 s3 存储桶导入到 gcp 的方法,但无法直接从大查询导出到 s3。我真的被困在这部分了。此外,我需要安排此过程,因为 bigquery 中的数据在变化,而且我每天都希望将数据发送到我的 s3 存储桶。请提及引用资料。请注意,每天的数据将以 TB 为单位

最佳答案

据我所知,没有直接的 bigquery 到 s3 管道,但解决方法是 BigQuery 到谷歌云存储,然后到 s3

  1. 第一步是 setup gcloud sdk在将安排作业的机器上。

  2. 配置gcloud,特别注意boto configuration如果进程要在 EC2 上运行并附加一个允许它写入 S3 的角色(这也是比使用 key 更好的安全实践),则可以跳过此步骤

  3. 将数据从 bigquery 复制到 gcs

     bq --location=US extract --destination_format AVRO --compression SNAPPY [source_table] [target location on gcs]
  4. 将文件从 gcs 复制到 s3

     gsutil rsync -r [target location on gcs] to [target location on s3]

注意:此过程适用于 GA360 数据,因为它已经按天分区,但如果不是这种情况并且您无法分隔表格,那么您可以 schedule a query on GCP使用将用作[源表]的增量逻辑创建表

更新AWS 发布了 BQ glue connector可以做到这一点

关于python - 将 BigQuery 数据传输到 amazon s3 存储桶,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64158401/

40 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com