gpt4 book ai didi

scala - Spark结构化流处理中跳过批处理

转载 作者:行者123 更新时间:2023-12-03 08:56:29 26 4
gpt4 key购买 nike

我有一个 Spark 结构化流作业,它消耗来自 azure 事件中心服务的事件。在某些情况下,流作业不会处理某些批处理。在这种情况下,可以在结构化流日志中看到以下日志语句:

INFO FileStreamSink: Skipping already committed batch 25

流作业将传入事件保存到 Azure Datalake 中,因此我可以检查哪些事件已实际处理/保存。当发生上述跳过时,这些事件就丢失了!

我不清楚为什么这些批处理被标记为已提交,因为最终它们似乎没有被处理!

您知道什么可能会导致此行为吗?

谢谢!

最佳答案

我们遇到了同样的问题,Kafka 代理已经删除了数据。因此,为了强制 Spark 应用程序从头开始(Kafka 中的最新偏移量),我们删除了 checkpoint_spark_metadata 目录。您可以在写入流的同一路径中找到 _spark_metadata

关于scala - Spark结构化流处理中跳过批处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54902750/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com