gpt4 book ai didi

google-bigquery - 将数据流式传输到 Bigquery 与将数据上传到 PubSub 然后使用数据流将数据插入到 Bigquery 之间的优缺点是什么

转载 作者:行者123 更新时间:2023-12-04 08:09:40 31 4
gpt4 key购买 nike

据我所知,将数据流式传输到 BigQuery 会导致重复行,正如这里提到的 https://cloud.google.com/bigquery/streaming-data-into-bigquery#real-time_dashboards_and_queries

另一方面,将数据上传到 PubSub,然后使用数据流向 Bigquery 插入数据会防止重复行吗?这里还有实时数据分析教程https://cloud.google.com/solutions/real-time/fluentd-bigquery

那么其他优点和缺点是什么,在什么情况下我应该使用数据流从 PubSub 流式传输数据

最佳答案

借助 Google Dataflow 和 PubSub,您将完全控制您的流数据,您可以实时对数据进行切片和切 block ,并实现自己的业务逻辑,最后将其写入 BigQuery 表。另一方面,使用其他方法通过 BigQuery 作业直接将数据流式传输到 BigQuery,您肯定会失去对数据的控制。

利弊实际上取决于您需要如何处理流数据。如果您正在执行平面插入,则不需要 Dataflow,但如果您需要一些严肃的计算,例如按键分组、合并、分区、汇总流数据,那么 Dataflow 可能是最好的方法。要记住的是成本,一旦您开始向 PubSub 注入(inject)大量数据并使用数据流来操作这些数据,它就会开始变得昂贵。

要回答您的问题,是的,您可以使用 Dataflow 消除重复行。由于 Dataflow 对数据具有完全控制权,因此您可以使用管道过滤器来检查满足重复值的任何条件。我正在使用 Dataflow 管道的当前场景是实时操作我的客户日志记录,并通过 Dataflow 和通过 PubSub 传递的日志流完成严重的预聚合。 Dataflow 对于批处理和流式数据操作都非常强大。希望这可以帮助。

关于google-bigquery - 将数据流式传输到 Bigquery 与将数据上传到 PubSub 然后使用数据流将数据插入到 Bigquery 之间的优缺点是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43740443/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com