gpt4 book ai didi

apache-beam - 您如何表达长时间分散的Apache Beam中的非规范化联接

转载 作者:行者123 更新时间:2023-12-03 12:19:25 25 4
gpt4 key购买 nike

对于上下文,我从未使用过Beam。我试图了解如何将Beam模型应用于常见用例。

假设您有一个无限制的生产者集合和一个无限制的产品集合,这样每个产品都有一个生产者(一对多,从生产者到产品)。并且您具有产品生产者在其产品之前(或之后)出现的附加属性。但是生产者可能比其产品早几年出现。

如果您想与生产者一起生产无限制的产品集合,那么表达这一点的合适方法是什么?进行多年的窗口化连接似乎无法达到目标。但是,将生产者作为辅助输入似乎并不能解决生产者可能与产品出现时非常接近的情况。

是否有适当的方法来混合这两个概念?

最佳答案

由于Producer可能比其Product早几年出现,因此您可以使用一些外部存储设备(例如BigTable)来存储Producer并为产品流编写ParDo来进行查找和执行联接。为了进一步优化性能,您可以利用有状态DoFn功能批量查找(结帐this博客)。

对于在生产者数据之前交付产品数据的情况,您仍然可以使用windowing和CoGroupByKey进行联接。但是,此处的窗口可能足够小,仅用于处理无序交付。

关于apache-beam - 您如何表达长时间分散的Apache Beam中的非规范化联接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47295746/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com