gpt4 book ai didi

google-bigquery - 如何将多个文件作为事务上传到谷歌云存储桶

转载 作者:行者123 更新时间:2023-12-03 21:38:47 25 4
gpt4 key购买 nike

用例:

将多个文件上传到云存储分区,然后将该数据用作 bigquery 导入的来源。使用桶的名称作为元数据来驱动数据应该进入哪个分表。

问题:

为了防止部分导入到 bigquery 表中,理想情况下,我想执行以下操作,

  • 将文件上传到临时存储桶中
  • 验证所有文件均已正确上传
  • 将暂存存储桶重命名为其最终名称(例如,gs://20130112)
  • 触发 bigquery 导入以将存储桶加载到分片表中

由于 gsutil 似乎不支持存储桶重命名,有哪些替代方法可以完成此操作?

最佳答案

Google Cloud Storage 不支持重命名存储分区,或者更一般地说,不支持一次对多个对象进行操作的原子方式。

如果您主要关心的是所有对象都已正确上传(而不是需要确保存储桶内容仅在所有对象上传后才可见),gsutil cp 支持 - 如果任何对象上传失败,它将报告上传失败的号码并以非零状态退出。

因此,一种可能的实现是运行 gsutil cp 以上传所有文件的脚本,然后在创建 BigQuery 表加载作业之前检查 gsutil 退出状态。

Mike Schwartz,Google 云存储团队

关于google-bigquery - 如何将多个文件作为事务上传到谷歌云存储桶,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14609007/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com