gpt4 book ai didi

apache-spark - Spark 结构化流中的实时指标

转载 作者:行者123 更新时间:2023-12-04 17:45:31 26 4
gpt4 key购买 nike

我想使用外部指标系统来监控 spark 中的流进度。为此,我应该尽快发送带有指标的通知(读取、转换和写入记录的数量)

StreamExecution 使用 ProgressReporter 将带有统计信息(numInputRows、processedRowsPerSecond 等)的 QueryProgressEvents 发送到 StreamingQueryListener。问题是当批量处理所有数据时会发生这种情况。但是,我希望在从源中读取输入行数时(在转换和写入发生之前)立即收到有关输入行数的通知,然后在数据发送到接收器时对写入记录进行编号。

有没有办法在结构化流中实时获取每批处理的此类指标?

最佳答案

除了 databricks 平台之外,结构化流式传输的指标目前并未在任何地方开箱即用。通过开源 spark 获取它们的唯一方法是扩展流式查询监听器类并编写您自己的类。

关于apache-spark - Spark 结构化流中的实时指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48715921/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com