gpt4 book ai didi

apache-flink - Flink 广播状态如何初始化?

转载 作者:行者123 更新时间:2023-12-05 07:25:31 30 4
gpt4 key购买 nike

我们正在尝试构建一个用例,其中来自流的数据通过计算公式运行,但公式本身也应该(很少)是可更新的。通过阅读文档,在我看来,Flink 广播状态很适合这种情况。

作为实验,我构建了一个简化版本:假设我有一个整数流,第二个流包含这些整数的乘法因子(我可以随意发送值)。第二个流的频率非常低,很容易在事件之间以几天或几周的顺序出现。目前,这两者都是作为简单的套接字服务器实现的,最终产品将使用 Kafka。

在我的示例应用程序中,这一切都有效,但我遇到了一个问题:当系统启动并且广播流上还没有发生任何事情时会发生什么?我从哪里可以获得默认(或上次使用的)因子?在我的例子中,我现在通过硬编码一个值来解决它,但这不是我可以使用的东西。

在我的实验项目中,我对此有点困惑,因为 {processElement} 仅获得只读广播状态,但 processBroadcastElement 不会被调用,直到有可能需要的更新很长时间。我的计划是将使用的公式存储在数据库中,并在工作(重新)开始时以某种方式读取它,但我还没有找到一种方法来完成这项工作。欢迎更多知识渊博的人提出任何建议,这是我的第一个 Flink 项目,所以我正在努力寻找解决方法。

工作示例在这里: https://github.com/tonvanbart/flink-broadcast-example/tree/mapstate-attemptFlink 代码在 BroadcastState 类中。

提前致谢。

最佳答案

如果系统从检查点/保存点重新启动,那么你有最后一个广播的因素(通过状态),对吧?所以我认为问题在于它最初启动时要做什么。

如果是这样,那么这是您正在使用的模式的一个常见问题,您实际上想要阻止整数流,直到您从广播流中获得初始值。

目前常见的解决方案是在您的运算符中缓冲整数流(使用状态),直到您获得该初始值,但这可能会导致无限状态,具体取决于整数输入的速度以及您必须输入多长时间等等。

您可以尝试的其他方法是包装您的整数源(使其成为委托(delegate))并且在您知道已广播某些内容之前不要发出任何值。例如。使广播的内容成为可查询状态,并定期检查直到状态存在。

关于apache-flink - Flink 广播状态如何初始化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54748158/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com