gpt4 book ai didi

apache-spark - 有没有办法动态停止 Spark Structured Streaming?

转载 作者:行者123 更新时间:2023-12-03 09:28:48 25 4
gpt4 key购买 nike

在我的场景中,我有几个数据集时不时出现,我需要在我们的平台中摄取它们。摄取过程涉及几个转换步骤。其中之一是 Spark。到目前为止,我特别使用 Spark 结构化流媒体。基础设施还涉及 kafka,spark 结构化流从中读取数据。

我想知道是否有一种方法可以检测到某个主题在一段时间内没有其他可消费的东西来决定停止工作。那就是我想在消耗该特定数据集所需的时间内运行它,然后停止它。出于特定原因,我们决定不使用 spark 的批处理版本。

因此,是否有任何超时或可用于检测没有更多数据进入并且所有内容都已处理的东西。

谢谢

最佳答案

Structured Streaming Monitoring Options

您可以使用 query.lastProgress 来获取时间戳并围绕它构建逻辑。不要忘记将检查点保存到持久、持久、可用的存储中。

关于apache-spark - 有没有办法动态停止 Spark Structured Streaming?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52498622/

25 4 0