gpt4 book ai didi

google-cloud-dataflow - 没有接收器的流式数据流管道

转载 作者:行者123 更新时间:2023-12-03 22:15:21 25 4
gpt4 key购买 nike

我们有一个在 Google Cloud Dataflow 上运行的流式数据流管道
工作人员,需要从 PubSub 订阅、组中读取
消息,并将它们写入 BigQuery。内置的 BigQuery Sink
不适合我们的需求,因为我们需要针对特定​​的数据集和表
对于每个组。由于流媒体不支持自定义接收器
管道,似乎唯一的解决方案是执行插入
ParDo 中的操作。像这样的东西:

enter image description here

在管道中没有接收器是否有任何已知问题,或者在编写这种管道时需要注意什么?

最佳答案

编写没有接收器的管道应该没有任何问题。事实上,sink 是一种 ParDo在流媒体。

我建议您使用自定义 ParDo并将 BigQuery API 与您的自定义逻辑结合使用。这是BigQuerySink的定义,您可以使用此代码作为起点。

您可以定义自己的 DoFn,类似于 StreamingWriteFn添加您的自定义 ParDo 逻辑,该逻辑将写入适当的 BigQuery 数据集/表。

请注意,这是使用 Reshuffle而不是 GroupByKey .我建议您使用 Reshuffle,它也将按键分组,但避免不必要的窗口延迟。在这种情况下,这意味着元素一进入就应该被写出,没有额外的缓冲/延迟。此外,这允许您在运行时确定 BQ 表名称。

编辑:我不建议使用内置的 BigQuerySink 写入不同的表。此建议是在您的自定义 DoFn 中使用 BigQuery API,而不是使用 BigQuerySink

关于google-cloud-dataflow - 没有接收器的流式数据流管道,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41837745/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com