gpt4 book ai didi

apache-spark - 登录 spark 结构化流

转载 作者:行者123 更新时间:2023-12-02 02:51:08 25 4
gpt4 key购买 nike

我能够开发一个从 kafka 读取的管道进行一些转换并将输出写入 kafka sink 以及 parque sink。我想添加有效的日志记录来记录转换的中间结果,就像在常规流式应用程序中一样。

我看到的一个选项是通过

记录 queryExecutionsstreams
df.queryExecution.analyzed.numberedTreeString 

logger.info("Query progress"+ query.lastProgress)
logger.info("Query status"+ query.status)

但这似乎没有办法查看正在运行流的业务特定消息。

有什么方法可以添加更多日志记录信息,例如它正在处理的数据?

最佳答案

我找到了一些跟踪相同的选项。基本上我们可以使用 df.writeStream.format("parquet") 命名我们的流式查询.queryName("table1")

查询名称 table1 将打印在 Spark 作业选项卡中,与 Spark UI 中的已完成作业列表相对应,您可以从中跟踪每个流式查询的状态

2) 在结构化流中使用 ProgressReporter API 来收集更多统计信息

关于apache-spark - 登录 spark 结构化流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52173468/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com