performance - Spark 流吞吐量监控-6ren

performance - Spark 流吞吐量监控

转载作者：行者123 更新时间：2023-12-04 13:38:34

25

4

有没有办法监控 Spark 集群的输入和输出吞吐量，以确保集群不会被传入的数据淹没和溢出？

就我而言，我在 AWS EC2 上设置了 Spark 集群，所以我正在考虑使用 AWS CloudWatch 监控 网络在和 网络输出 对于集群中的每个节点。

但是我的想法似乎不准确，网络并不意味着仅针对 Spark 的传入数据，也许还会计算其他一些数据。

是否有专门针对 进行监控的工具或方法Spark 集群流数据状态 ?或者我错过了 Spark 中已经有一个内置工具？

更新: Spark 1.4 发布，4040端口监控显着增强，图形化显示

最佳答案

Spark 有一个 configurable metric subsystem .
默认情况下，它会在 <driver>:<port>/metrics/json 上发布已注册指标的 JSON 版本。 .可以配置其他指标同步，如 ganglia、csv 文件或 JMX。

您将需要一些外部监控系统来定期收集指标并帮助您理解它。 (注:我们使用 Ganglia，但还有其他开源和商业选项)

Spark Streaming 发布了几个可用于监控作业性能的指标。要计算吞吐量，您可以结合:
(lastReceivedBatch_processingEndTime-lastReceivedBatch_processingStartTime)/lastReceivedBatch_records
有关支持的所有指标，请查看 StreamingSource

示例:使用 Spark 1.3.1 启动本地 REPL，并在执行一个简单的流应用程序之后:

import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(10))
val queue = scala.collection.mutable.Queue(1,2,3,45,6,6,7,18,9,10,11)
val q = queue.map(elem => sc.parallelize(Seq(elem)))
val dstream = ssc.queueStream(q)
dstream.print
ssc.start

一个可以得到 localhost:4040/metrics/json然后返回:

{
version: "3.0.0",
gauges: {
local-1430558777965.<driver>.BlockManager.disk.diskSpaceUsed_MB: {
value: 0
},
local-1430558777965.<driver>.BlockManager.memory.maxMem_MB: {
value: 2120
},
local-1430558777965.<driver>.BlockManager.memory.memUsed_MB: {
value: 0
},
local-1430558777965.<driver>.BlockManager.memory.remainingMem_MB: {
value: 2120
},
local-1430558777965.<driver>.DAGScheduler.job.activeJobs: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.job.allJobs: {
value: 6
},
local-1430558777965.<driver>.DAGScheduler.stage.failedStages: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.stage.runningStages: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.stage.waitingStages: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingDelay: {
value: 44
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingEndTime: {
value: 1430559950044
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingStartTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_schedulingDelay: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_submissionTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_totalDelay: {
value: 44
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_processingEndTime: {
value: 1430559950044
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_processingStartTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_records: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_submissionTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.receivers: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.retainedCompletedBatches: {
value: 2
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.runningBatches: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalCompletedBatches: {
value: 2
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalProcessedRecords: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalReceivedRecords: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.unprocessedBatches: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.waitingBatches: {
value: 0
}
},
counters: { },
histograms: { },
meters: { },
timers: { }
}

关于performance - Spark 流吞吐量监控，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29979958/

25

4

0

文章推荐： styles - OpenLayers 3笔触样式

文章推荐： wpf - Prism InteractionRequest + MahApps.Metro

文章推荐： tfs - 一个产品团队的VSO和多个项目

c++ - 测量忽略处理器速度的快速代码的性能/吞吐量？
有没有一种方法我可以编写一个“工具”来分析从 C/C++ 程序生成的 x86 汇编语言并以这种方式测量性能，无论我在 1GHz 还是 3GHz 上运行它都没有关系处理器？我在考虑更多的指令吞吐量？我
messagebroker - NATS 是否水平扩展(吞吐量)
我们正在使用 NATS 并使用 3+ 节点的集群。我们有几个生产者和许多消费者。消息大小很小 (~100bytes) 但是我们的吞吐量有点高。 ~40k/秒。所有流量都在 2x10gbps 绑定(bi
jmeter - 吞吐量 Controller 的目的？
我需要一些帮助才能使用 JMeter。我想记录两种不同的场景，比如点击 2 个不同的按钮。如果我尝试为 2 个用户运行，一个用户应该点击第一个按钮，另一个用户应该同时点击另一个按钮。我知道这是基本问
grpc - 如何最大化 grpc 吞吐量？
在 100Gb 网络上，我创建了一个服务器来监听 4 个端口，grpc 客户端可以达到 3GB+/s 的吞吐量。然而，当服务器监听一个端口时，grpc 客户端达到了 1GB/s 的吞吐量，即使我设置了
android - 处理程序数据 IO 吞吐量？
android Handlers可行的数据IO吞吐量是多少？足以在线程之间传递原始音频或视频吗？它应该是可持续的吗？我在 android Handler docs 中没有看到任何对此的引用, $WE
elasticsearch - 在多机上增加 rabbitmq 吞吐量
我正在使用 logstash 和 elasticsearch 构建日志系统。 RabbitMQ 用于在两个 logstash 之间排队日志消息。消息路径如下: source log -> logst
c# - 如何增加 UDPClient 吞吐量
我正在研究 .NET Core 在 Linux 机器上的性能。具体来说，确定框架本身可用的工具可能存在什么样的限制。我一直以 ~ 50,000 pps 的价格击中盒子。到目前为止，似乎 ~ 20,0
Linux 无盘客户端 nfs 吞吐量
我有一个使用 nfs 挂载的 gentoo 无盘客户端，看起来 nfs 的吞吐量很慢。 iperf 显示网络能够推送 770 Mb/s，hdparm 显示服务器上的 SATA 磁盘速度为 90 Mb/
Java 首选项 API 吞吐量
我正在使用 Java Preferences API 来存储 Swing 应用程序的窗口位置和大小。此时此刻，我正在监听窗口调整大小/重新定位事件并在每次更改时存储位置和大小。然而，这意味着如果用户慢
performance - 分析云数据流 BigQuery 吞吐量/流水线
我正在尝试弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳。首先，我刚刚创建了一个简单的流程，它从 BigQuery 中读取数据(约 2500 万行，总共 30GB)，进行 JSON 提
java - 如何确定 JVM GC 吞吐量？
确定 Oracle Java 8 JVM 垃圾收集器吞吐量的最简单方法是什么，最好使用 JDK 命令行工具？通过 jstat 命令，我可以获得总的垃圾收集时间(GCT 列)。根据这个值的变化与GC日
java - 如何测试 HDFS I/O 吞吐量
我有一个 Java 程序，它使用 HDFS 数据输入/输出流读取文件并将内容写入新文件。我的目标是找出我的 HDFS 的 I/O 吞吐量。下面是执行读/写和计时的代码片段: long start =
networking - 定义做某事所需的时间(延迟、吞吐量、带宽)
我了解延迟 - 消息从发件人到收件人所需的时间 - 和带宽 - 在给定时间内可以传输的最大数据量 - 但我正在努力寻找合适的术语来描述相关事物: 如果协议(protocol)是基于对话的——负载在端点
python - 低 Apache/mod_wsgi 吞吐量
我有一个在 pesto、mod_wsgi 和 Apache 上运行的普通 WSGI 应用程序: def viewData(request): return Response("aaaaaaaa
azure - 写入 Azure Cosmos，吞吐量 RU
我们计划将 10000 个 JSON 文档写入 Azure Cosmos DB (MongoDB)，吞吐量单位重要吗？如果重要，我们可以增加批量负载并将其设置回较低的数字最佳答案是的，你可以做到。
azure - 写入 Azure Cosmos，吞吐量 RU
我们计划将 10000 个 JSON 文档写入 Azure Cosmos DB (MongoDB)，吞吐量单位重要吗？如果重要，我们可以增加批量负载并将其设置回较低的数字最佳答案是的，你可以做到。
apache-spark - Spark 流 + kafka 吞吐量
在我的 spark 应用程序中，我正在阅读 kafka 主题。该主题有 10 个分区，因此我创建了 10 个接收器，每个接收器一个线程。通过这样的配置，我可以观察到接收器的奇怪行为。这些消费者的平均利
amazon-web-services - AWS Dynamodb 吞吐量
关于 AWS DynamoDb 吞吐量，我有些无法理解的地方。让我们考虑强一致性读取。现在，我明白在这种情况下，1 个容量单位意味着我每秒最多可以读取 4KB 的数据。 “每秒”这一点让我有点困惑
amazon-web-services - AWS Lambda 吞吐量
来自 AWS Lambda 常见问题解答: Q: Is there a limit to the number of AWS Lambda functions I can execute at onc
linux kernel_v_4.X 降低了 TCP_UL 吞吐量
在内核版本 4.X 上运行 iperf tcp_ul 流量时，我观察到 tcp_ul 的吞吐量有所下降。任何人都知道，为什么会这样。最佳答案在内核版本 4.4 之后，他们修改了 TCP 拥塞控制算

首页

博学

6Ren·AI

商城

performance - Spark 流吞吐量监控