scala - 监控结构化流媒体-6ren

scala - 监控结构化流媒体

转载作者：行者123 更新时间：2023-12-02 15:39:10

26

4

我设置了一个运行良好的结构化流，但我希望在它运行时对其进行监视。

我已经构建了一个 EventCollector

class EventCollector extends StreamingQueryListener{
  override def onQueryStarted(event: QueryStartedEvent): Unit = {
    println("Start")
  }

  override def onQueryProgress(event: QueryProgressEvent): Unit = {
    println(event.queryStatus.prettyJson)
  }

  override def onQueryTerminated(event: QueryTerminatedEvent): Unit = {
    println("Term")
  }

我已经构建了一个 EventCollector 并将监听器添加到我的 Spark session 中

val listener = new EventCollector()
spark.streams.addListener(listener)

然后我触发查询

val query = inputDF.writeStream
  //.format("console")
  .queryName("Stream")
  .foreach(writer)
  .start()

query.awaitTermination()

但是，onQueryProgress 永远不会被命中。 onQueryStarted 确实如此，但我希望以一定的时间间隔获取查询的进度，以监视查询的执行情况。有人可以帮忙吗？

最佳答案

经过对这个主题的大量研究，这就是我发现的......

OnQueryProgress 在查询之间被命中。我不确定这个功能是否有意为之，但是当我们从文件中传输数据时，OnQueryProgress 不会触发。

我发现的一个解决方案是依赖 foreach writer 接收器并在 process 函数中执行我自己的性能分析。不幸的是，我们无法访问有关正在运行的查询的特定信息。或者，我还没有弄清楚如何做。这是我在沙箱中实现的用于分析性能的方法:

val writer = new ForeachWriter[rawDataRow] {
    def open(partitionId: Long, version: Long):Boolean = {
        //We end up here in between files
        true
    }
    def process(value: rawDataRow) = {
        counter += 1

        if(counter % 1000 == 0) {
            val currentTime = System.nanoTime()
            val elapsedTime = (currentTime - startTime)/1000000000.0

            println(s"Records Written:  $counter")
            println(s"Time Elapsed: $elapsedTime seconds")
        }
     }
}

获取指标的另一种方法:

获取有关正在运行的查询的信息的另一种方法是访问 Spark 为我们提供的 GET 端点。

http://localhost:4040/metrics

或

http://localhost:4040/api/v1/

此处的文档:http://spark.apache.org/docs/latest/monitoring.html

2017 年 9 月 2 日更新号:在常规 Spark 流上进行测试，而非结构化流

免责声明，这可能不适用于结构化流，我需要设置一个测试床来确认。但是，它确实可以与常规 Spark 流一起使用(在本例中使用 Kafka)。

我相信，自从 Spark Streaming 2.2 发布以来，已经存在新的端点，可以检索有关流性能的更多指标。这可能已经存在于以前的版本中，我只是错过了它，但我想确保它已被记录下来供其他搜索此信息的人使用。

http://localhost:4040/api/v1/applications/ {applicationIdHere}/流媒体/统计

这个端点看起来像是在 2.2 中添加的(或者它已经存在并且只是添加了文档，我不确定，我还没有检查过)。

无论如何，它都会为指定的流应用程序添加这种格式的指标:

{
  "startTime" : "2017-09-13T14:02:28.883GMT",
  "batchDuration" : 1000,
  "numReceivers" : 0,
  "numActiveReceivers" : 0,
  "numInactiveReceivers" : 0,
  "numTotalCompletedBatches" : 90379,
  "numRetainedCompletedBatches" : 1000,
  "numActiveBatches" : 0,
  "numProcessedRecords" : 39652167,
  "numReceivedRecords" : 39652167,
  "avgInputRate" : 771.722,
  "avgSchedulingDelay" : 2,
  "avgProcessingTime" : 85,
  "avgTotalDelay" : 87
}

这使我们能够使用 Spark 公开的 REST 端点构建自己的自定义指标/监控应用程序。

关于scala - 监控结构化流媒体，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40937627/

26

4

0

文章推荐： scala - Apache Spark : Hashmap accumulators give type mismatch error

文章推荐： javascript - 适合 JavaScript 的大小

文章推荐： javascript - 如何将 JS 变量的值路由到 HTML Div？

文章推荐： xaml - 无法让 Xamarin Xaml Intellisense 在 VS 2015 中工作

ubuntu - 如何使用 Zabbix 3.2 监控 Tomcat 7.0 | Zabbix 上的 Tomcat 监控
我已经在 ubuntu 14.0 上成功安装了 Zabbix 3.2 服务器主机上的 Z 是绿色的。不幸的是，JMX 是红色的。 Zabbix 服务器:192.168.1.112 带有 tomcat
Azure服务总线统计/监控
我想制作一个仪表板，显示我们的 Azure 服务总线队列的状态，并显示“添加到队列的消息”、“队列长度”和“已处理的消息”等的历史记录。使用 Azure 管理门户，我可以看到，这些统计信息大部分是手动
Mysql事件日志(监控)
我的 MYSQL 每天晚上都有事件，但我不太确定发生了什么，因为即使我将其设置得早于其他事件，它仍然在早上运行。问题是，我如何检查运行事件的历史记录或日志，哪一个晚上锁了，哪一个是跑了没跑？谢谢
监控 log文件大小的存储过程
1、监控log文件大小超过10g的server 和db 复制代码代码如下: create procedure db_sendmail_mssqllogsize as&n
监控 Spring 方法执行的性能
本教程讨论如何使用 AspectJ 开源框架监控 Spring 应用程序在方法执行方面的性能。传统上，监控每个 Java 方法所花费的时间的最简单方法是在方法的开头和结尾包含一些跟踪行： publi
monitoring - MSMQ 监控
有什么可以帮助 msmq 监控的吗？当消息出现在队列中并且在休假时相同时，我想获得一些事件/监视器。最佳答案查看 Windows 管理性能计数器。如果您查看管理工具并找到“性能计数器”，您将能够
监控 Commons DBCP？
我的 Tomcat 中的一个巨大的 web 应用程序有时会开始使用过多的 DBCP 连接，从而导致问题。为了进行调查，我想在每个时间点准确地知道什么线程/方法持有池的连接。不需要是实时的，事后分析就
Jquery cookie 监控
在浏览器的整个页面生命周期中监视 cookie 并在 cookie 更改时触发事件的最佳 JS 或 JQuery 特定方法是什么？最佳答案据我所知，不可能将 change (或类似)事件直接绑定(
python - 获取笔记本的详细实时报告/监控
我想尽可能详细地报告我的笔记本的执行情况。简而言之，我想实时查看我的笔记本正在执行的每个操作。例如，我的一个函数有一个 sleep 周期为 5 秒的循环，我希望看到程序实际上正在 sleep 并且循环
azure - Azure容器服务中Kubernetes集群的日志记录/监控
Azure 容器服务是否与 Azure Monitor 集成？想知道对 kubernetes 集群进行日志记录/监控的最佳方法是什么？最佳答案如果您正在 Azure 上寻找监视工具，您可能需要使用
erlang - 监控 gen_server
我一直在尝试使用 erlang:monitor/2 来监视 gen_server。不幸的是，每次我尝试这个时，Erlang shell 都会进入无限循环。这是我为测试这一点而编写的测试程序。 -mo
azure - Azure容器服务中Kubernetes集群的日志记录/监控
Azure 容器服务是否与 Azure Monitor 集成？想知道对 kubernetes 集群进行日志记录/监控的最佳方法是什么？最佳答案如果您正在 Azure 上寻找监视工具，您可能需要使用
监控 Kafka 消费者滞后
我想使用编写一个 shell 脚本来监控集群中的消费者滞后 bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zkconnect
c# - 多线程锁定/监控
在 .NET 中，假设 thread A 锁定了一个对象。同时，线程B和线程C被阻塞，等待线程A解锁对象。现在，线程 A 解锁了对象。接下来将选择哪个线程(B 或 C)？它是如何确定的？最佳答案
iPhone 数据使用跟踪/监控
我搜索过这个主题，但发现很少有有用的细节。有了这些细节，我尝试编写一些代码如下。注意:在将此帖子标记为重复之前，请将此帖子中共享的详细信息与其他帖子进行比较，而不仅仅是按主题。 - (NSArray
深入理解spring boot 监控
目录 1、指标监控 2、常用的监控端点 3、定制EndPoint 4、spring boot admin（可以使用）
java - 监控 Kafka 主题的消费者数量
我们使用 Prometheus 和 Grafana 来监控我们的 Kafka 集群。在我们的应用程序中，我们使用 Kafka 流，Kafka 流有可能因异常而停止。我们正在记录事件 setUnCau
performance - 监控 ffmpeg 流的网络性能
我正在建立一个复杂的网络仿真，并试图捕捉一些重要的性能测量。我在服务器上运行了 mininet，并且我将视频从一个 mininet 主机流式传输到另一个(使用 -nodisp 选项，因为我没有 GU
jenkins - 监控 openstack4j 的请求量
Jenkins 的 openstack-plugin 使用 openstack4j 与 openstack 云对话。我正在寻找一种方法，我们可以从客户端的角度监控 openstack4j 所做的 ht
macos - 监控 Thunderbolt 端口连接的变化
我正在处理一项需要监控 Thunderbolt 端口连接变化的要求。 (当连接或断开 Thunderbolt 电缆时)。我尝试使用 IOServiceMatching(kIOUSBInterface

首页

博学

6Ren·AI

商城

scala - 监控结构化流媒体