gpt4 book ai didi

google-cloud-dataflow - 使用 Google DataFlow 将数据直接流式传输到 Cloud SQL 的简单查询

转载 作者:行者123 更新时间:2023-12-02 09:14:28 25 4
gpt4 key购买 nike

所以我正在开发一个小项目,该项目使用 Google Dataflow 和 apache beam 设置流管道。我学习了一些教程,并且能够建立管道并运行流式传输到 BigQuery,但我希望将其流式传输到完整的关系数据库(即:Cloud SQL)。我已经通过这个网站和谷歌进行了搜索,似乎实现这一目标的最佳途径是使用 JdbcIO。我在这里有点困惑,因为当我查找有关如何执行此操作的信息时,它都是指批量写入云 SQL,而不是完全流式传输。

我的简单问题是我可以将数据直接流式传输到 Cloud SQL 还是必须通过批处理发送。

干杯!

最佳答案

您应该使用JdbcIO - 它会执行您想要的操作,并且不会假设其输入PCollection是有界还是无界,因此您可以在任何情况下使用它管道以及任何Beam runner; Dataflow Streaming Runner 也不异常(exception)。

如果您的问题是通过阅读其源代码并看到“批处理”一词而提出的:它只是意味着为了提高效率,它会在每个数据库调用中写入多条记录 - “批处理”一词的过度使用可能会令人困惑,但这里它只是意味着它试图避免对每条记录进行昂贵的数据库调用的开销。

实际上,默认情况下每次调用写入的记录数最多为 1000 条,但通常取决于特定运行器选择如何在特定时刻对特定数据执行特定管道,并且可以小于该值.

关于google-cloud-dataflow - 使用 Google DataFlow 将数据直接流式传输到 Cloud SQL 的简单查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48569656/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com