gpt4 book ai didi

apache-spark - 如何为 Spark 结构化流应用程序获取 kafka 消费者延迟

转载 作者:行者123 更新时间:2023-12-04 10:20:30 25 4
gpt4 key购买 nike

我正在为我的 spark 结构化流应用程序构建监控,并且需要获取 spark 应用程序使用的某个主题的消费者滞后。我相信 Spark 驱动程序必须意识到这种滞后,因为它具有执行器的所有元数据。我看不到任何方法可以从任何现有的 spark 文档或资源中获取这些指标。我 checkout streaminQueryListener接口(interface),但它的功能也有限,因为我们只能从中获取每个查询指标。

最佳答案

跟踪结构化流作业的消费者滞后的挑战是结构化流 不提交任何偏移量 回到 Kafka(参见 here 了解更多详情)。因此,Kafka 不知道 Structured Streaming 作业的实际进度。
另一方面,Spark 无法洞察当前位于 Kafka 主题中的消息/偏移量。
为了监控消费者滞后,您需要将这些信息放在一起:

  • 不断请求 TopicPartition 中的最新偏移量
  • 持续检查结构化流应用程序处理的当前偏移量

  • 例如,您可以创建一个 Kafka AdminClient并在 onQueryProgress 期间从 Kafka 获取所需信息调用 StreamingQueryListener .在该方法中,您需要将提到的最新事件的偏移量与 Kafka 中可用的实际最高偏移量进行比较。

    关于apache-spark - 如何为 Spark 结构化流应用程序获取 kafka 消费者延迟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60885268/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com