gpt4 book ai didi

google-cloud-dataflow - 更新/刷新侧输入数据或传递一些额外的数据集,这些数据在处理主输入时可以在转换中访问

转载 作者:行者123 更新时间:2023-12-01 12:24:51 28 4
gpt4 key购买 nike

我正在尝试创建流式数据流管道。我需要访问一些额外的数据来处理从 pubsub 接收到的主要输入。如果我使用侧输入,那么在一段时间后(比如 1 天)我需要更新缓存的侧输入数据。或者有没有办法以列表或映射的形式将附加数据传递给转换,以便我可以使用第三方缓存管理器来刷新这些数据。

谢谢。

最佳答案

这里有一些可能性:

  1. 如果您可以将对边输入的更改表示为无限制的 PCollection 更改 - 例如通过订阅更改通知主题 - 那么您应该能够将更新添加到PCollection 您正在查看作为辅助输入的 PCollection,只要您能够容忍陈旧数据。侧输入的更新和缓存没有明确的更新延迟,但肯定会少于一天。

  2. 如果您没有更改通知主题,您仍然可以编写自己的 UnboundedSource,Dataflow 将轮询更新。这可能有点复杂。

  3. UnboundedSource 类似,在 Apache Beam(正在孵化)中,正在积极开展工作以在 DoFn 中支持带回调的计时器,因此您可能希望关注BEAM-27 .

  4. 您还可以在传入的主要输入数据上驱动自己的缓存。

根据其他细节,可能还有其他方法。您可能需要考虑如何“等待”新值准备就绪。对于特定窗口,任何主输入都将等待副输入具有该窗口的值。但是一旦侧面输入有一个值,就没有更多的等待,而只是尽力而为的最终更新。

关于google-cloud-dataflow - 更新/刷新侧输入数据或传递一些额外的数据集,这些数据在处理主输入时可以在转换中访问,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40970134/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com