gpt4 book ai didi

google-bigquery - 从 MySQL 转移到 BigQuery 而不超出限制?

转载 作者:行者123 更新时间:2023-12-02 04:18:21 25 4
gpt4 key购买 nike

我有一个包含 5 个表中数百万条记录的大型数据集。我正在展平表格并尝试将它们作为一项批处理作业上传到 bigquery 中。我将使用 ruby​​ 脚本连接到 mysql 进行查询并将它们批量上传到 bigquery。

我将使用此包装器连接到 BigQuery https://github.com/abronte/BigQuery

此包装器用于连接到 MySQL https://rubygems.org/gems/mysql

我的想法是,我将一次从 mysql 查询 100k 条记录并上传这些记录,但我不想达到这些限制......以下限制适用于将数据流式传输到 BigQuery。

Maximum row size: 1 MB
HTTP request size limit: 10 MB
Maximum rows per second: 100,000 rows per second, per table. Exceeding this amount will cause quota_exceeded errors. Maximum rows per request: 500
Maximum bytes per second: 100 MB per second, per table. Exceeding this amount will cause quota_exceeded errors.

来源:https://cloud.google.com/bigquery/streaming-data-into-bigquery


问题:
(1) 我是否在重新发明轮子,并且已经有一些东西可以做到这一点?
(2) 有没有一种简单的方法来标记bigquery中上传的内容以防止重复?
(3) 有什么办法可以避免达到这些限制?

最佳答案

将数据放入 BigQuery 的方式有多种:

  • 加载作业
  • 流式插入

因此,您在这里尝试做的是加载数据,而不是流式传输。来自实时数据源的流式传输很好,但是当您迁移项目时,更容易将数据转储为 CSV 或 JSON,然后使用批处理 loading into BigQuery您可以在其中加载 5TB (JSON) 大的文件。

如果你这样做,所有与限制有关的麻烦都会消失,而且你也不会重新发明轮子。

您的应用程序稍后将使用流式插入来添加您的表中的移动数据。

关于google-bigquery - 从 MySQL 转移到 BigQuery 而不超出限制?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32231331/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com