gpt4 book ai didi

java - 如何在 Apache Flink 中正确初始化任务状态?

转载 作者:太空宇宙 更新时间:2023-11-04 11:13:18 26 4
gpt4 key购买 nike

我正在研究基于 Apache Flink 的金融反欺诈系统。我需要根据金融交易计算许多不同的总量。我使用Kafka作为流数据源。例如,在平均交易金额计算中,我使用 MapState 来存储总交易数和每张卡的总金额。聚合数据存储在 Apache Accumulo 中。我知道 Flink 中的持久状态,但这不是我需要的。有没有办法在计算开始之前将初始数据加载到 Flink 中?是否可以通过使用两个连接的流以及来自 Accumulo 的数据以及最新计算的聚合和事务流来完成?交易流是无限的,聚合流不是无限的。我该往哪边挖?如有任何帮助,我们将不胜感激。

我考虑过 AsyncIO,但状态不能与异步函数一起使用。我的想法是:检查内存状态下的聚合。如果这里没有卡的数据 - 代码调用存储服务,从中获取数据,执行计算并更新内存状态,因此,该卡的下一笔交易不需要通过调用外部数据服务来处理。但我认为这是一个很大的瓶颈。

最佳答案

你可以尝试这样:

TASK::setInitialState
TASK::invoke
create basic utils (config, etc) and load the chain of operators
setup-operators
task-specific-init
initialize-operator-states
open-operators
run
close-operators
dispose-operators
task-specific-cleanup
common-cleanup

关于java - 如何在 Apache Flink 中正确初始化任务状态?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45759137/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com