gpt4 book ai didi

google-bigquery - 将大文件从 Google BigQuery 传输到 Google Cloud Storage

转载 作者:行者123 更新时间:2023-12-04 20:06:30 32 4
gpt4 key购买 nike

我需要将 BigQuery 中的大表、2B 记录传输到 csv 格式的 Cloud Storage。我正在使用控制台进行传输。

由于文件的大小,我需要指定一个包含 * 的 uri 来对导出进行分片。我最终在 Cloud Storage 中有 400 个 csv 文件。每个都有一个标题行。

这使得合并文件很耗时,因为我需要将 csv 文件下载到另一台机器,去掉标题行,合并文件,然后重新上传。 FY 合并后的 csv 文件的大小约为 48GB。

有没有更好的方法呢?

最佳答案

使用 API,您将能够告诉 BigQuery 在表提取期间不要打印标题行。这是通过设置 configuration.extract.printHeader 来完成的。选项 false .见 the documentation了解更多信息。命令行实用程序也应该能够做到这一点。

完成此操作后,连接文件就容易多了。在 Linux/Mac 计算机中,它将是单个 cat命令。但是,您也可以尝试连接 直接来自云存储 通过使用 compose手术。 See more details here .可以从 API 或命令行实用程序执行组合。

由于组合操作仅限于 32 个组件,因此您必须在 32 个文件之后组合 32 个文件。这应该对 400 个文件进行大约 13 次组合操作。请注意,我从未尝试过组合操作,所以我只是在这部分猜测。

关于google-bigquery - 将大文件从 Google BigQuery 传输到 Google Cloud Storage,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24972432/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com