- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
有没有办法监控 Spark 集群的输入和输出吞吐量,以确保集群不会被传入的数据淹没和溢出?
就我而言,我在 AWS EC2 上设置了 Spark 集群,所以我正在考虑使用 AWS CloudWatch 监控 网络在和 网络输出 对于集群中的每个节点。
但是我的想法似乎不准确,网络并不意味着仅针对 Spark 的传入数据,也许还会计算其他一些数据。
是否有专门针对 进行监控的工具或方法Spark 集群流数据状态 ?或者我错过了 Spark 中已经有一个内置工具?
更新: Spark 1.4 发布,4040端口监控显着增强,图形化显示
最佳答案
Spark 有一个 configurable metric subsystem .
默认情况下,它会在 <driver>:<port>/metrics/json
上发布已注册指标的 JSON 版本。 .可以配置其他指标同步,如 ganglia、csv 文件或 JMX。
您将需要一些外部监控系统来定期收集指标并帮助您理解它。 (注:我们使用 Ganglia,但还有其他开源和商业选项)
Spark Streaming 发布了几个可用于监控作业性能的指标。要计算吞吐量,您可以结合:(lastReceivedBatch_processingEndTime-lastReceivedBatch_processingStartTime)/lastReceivedBatch_records
有关支持的所有指标,请查看 StreamingSource
示例:使用 Spark 1.3.1 启动本地 REPL,并在执行一个简单的流应用程序之后:
import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(10))
val queue = scala.collection.mutable.Queue(1,2,3,45,6,6,7,18,9,10,11)
val q = queue.map(elem => sc.parallelize(Seq(elem)))
val dstream = ssc.queueStream(q)
dstream.print
ssc.start
localhost:4040/metrics/json
然后返回:
{
version: "3.0.0",
gauges: {
local-1430558777965.<driver>.BlockManager.disk.diskSpaceUsed_MB: {
value: 0
},
local-1430558777965.<driver>.BlockManager.memory.maxMem_MB: {
value: 2120
},
local-1430558777965.<driver>.BlockManager.memory.memUsed_MB: {
value: 0
},
local-1430558777965.<driver>.BlockManager.memory.remainingMem_MB: {
value: 2120
},
local-1430558777965.<driver>.DAGScheduler.job.activeJobs: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.job.allJobs: {
value: 6
},
local-1430558777965.<driver>.DAGScheduler.stage.failedStages: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.stage.runningStages: {
value: 0
},
local-1430558777965.<driver>.DAGScheduler.stage.waitingStages: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingDelay: {
value: 44
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingEndTime: {
value: 1430559950044
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_processingStartTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_schedulingDelay: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_submissionTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastCompletedBatch_totalDelay: {
value: 44
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_processingEndTime: {
value: 1430559950044
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_processingStartTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_records: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.lastReceivedBatch_submissionTime: {
value: 1430559950000
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.receivers: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.retainedCompletedBatches: {
value: 2
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.runningBatches: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalCompletedBatches: {
value: 2
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalProcessedRecords: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.totalReceivedRecords: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.unprocessedBatches: {
value: 0
},
local-1430558777965.<driver>.Spark shell.StreamingMetrics.streaming.waitingBatches: {
value: 0
}
},
counters: { },
histograms: { },
meters: { },
timers: { }
}
关于performance - Spark 流吞吐量监控,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29979958/
有没有一种方法我可以编写一个“工具”来分析从 C/C++ 程序生成的 x86 汇编语言并以这种方式测量性能,无论我在 1GHz 还是 3GHz 上运行它都没有关系处理器? 我在考虑更多的指令吞吐量?我
我们正在使用 NATS 并使用 3+ 节点的集群。我们有几个生产者和许多消费者。消息大小很小 (~100bytes) 但是我们的吞吐量有点高。 ~40k/秒。所有流量都在 2x10gbps 绑定(bi
我需要一些帮助才能使用 JMeter。我想记录两种不同的场景,比如点击 2 个不同的按钮。如果我尝试为 2 个用户运行,一个用户应该点击第一个按钮,另一个用户应该同时点击另一个按钮。 我知道这是基本问
在 100Gb 网络上,我创建了一个服务器来监听 4 个端口,grpc 客户端可以达到 3GB+/s 的吞吐量。然而,当服务器监听一个端口时,grpc 客户端达到了 1GB/s 的吞吐量,即使我设置了
android Handlers可行的数据IO吞吐量是多少?足以在线程之间传递原始音频或视频吗?它应该是可持续的吗? 我在 android Handler docs 中没有看到任何对此的引用, $WE
我正在使用 logstash 和 elasticsearch 构建日志系统。 RabbitMQ 用于在两个 logstash 之间排队日志消息。 消息路径如下: source log -> logst
我正在研究 .NET Core 在 Linux 机器上的性能。具体来说,确定框架本身可用的工具可能存在什么样的限制。 我一直以 ~ 50,000 pps 的价格击中盒子。到目前为止,似乎 ~ 20,0
我有一个使用 nfs 挂载的 gentoo 无盘客户端,看起来 nfs 的吞吐量很慢。 iperf 显示网络能够推送 770 Mb/s,hdparm 显示服务器上的 SATA 磁盘速度为 90 Mb/
我正在使用 Java Preferences API 来存储 Swing 应用程序的窗口位置和大小。此时此刻,我正在监听窗口调整大小/重新定位事件并在每次更改时存储位置和大小。然而,这意味着如果用户慢
我正在尝试弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳。首先,我刚刚创建了一个简单的流程,它从 BigQuery 中读取数据(约 2500 万行,总共 30GB),进行 JSON 提
确定 Oracle Java 8 JVM 垃圾收集器吞吐量的最简单方法是什么,最好使用 JDK 命令行工具? 通过 jstat 命令,我可以获得总的垃圾收集时间(GCT 列)。根据这个值的变化与GC日
我有一个 Java 程序,它使用 HDFS 数据输入/输出流读取文件并将内容写入新文件。我的目标是找出我的 HDFS 的 I/O 吞吐量。下面是执行读/写和计时的代码片段: long start =
我了解延迟 - 消息从发件人到收件人所需的时间 - 和带宽 - 在给定时间内可以传输的最大数据量 - 但我正在努力寻找合适的术语来描述相关事物: 如果协议(protocol)是基于对话的——负载在端点
我有一个在 pesto、mod_wsgi 和 Apache 上运行的普通 WSGI 应用程序: def viewData(request): return Response("aaaaaaaa
我们计划将 10000 个 JSON 文档写入 Azure Cosmos DB (MongoDB),吞吐量单位重要吗?如果重要,我们可以增加批量负载并将其设置回较低的数字 最佳答案 是的,你可以做到。
我们计划将 10000 个 JSON 文档写入 Azure Cosmos DB (MongoDB),吞吐量单位重要吗?如果重要,我们可以增加批量负载并将其设置回较低的数字 最佳答案 是的,你可以做到。
在我的 spark 应用程序中,我正在阅读 kafka 主题。该主题有 10 个分区,因此我创建了 10 个接收器,每个接收器一个线程。通过这样的配置,我可以观察到接收器的奇怪行为。这些消费者的平均利
关于 AWS DynamoDb 吞吐量,我有些无法理解的地方。 让我们考虑强一致性读取。 现在,我明白在这种情况下,1 个容量单位意味着我每秒最多可以读取 4KB 的数据。 “每秒”这一点让我有点困惑
来自 AWS Lambda 常见问题解答: Q: Is there a limit to the number of AWS Lambda functions I can execute at onc
在内核版本 4.X 上运行 iperf tcp_ul 流量时,我观察到 tcp_ul 的吞吐量有所下降。任何人都知道,为什么会这样。 最佳答案 在内核版本 4.4 之后,他们修改了 TCP 拥塞控制算
我是一名优秀的程序员,十分优秀!