- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 Prometheus 的新手,我在下面做了一个查询,试图以百分比的形式显示某个网站的平均正常运行时间,以供 SLA 监控(例如 Google)。
(avg_over_time(probe_success{instance="https://www.google.com/"}[$__range])) * 100
但是,是否可以让计算忽略任何少于 1 分钟的停机时间?
最佳答案
为探测制定 SLA 的最佳方法是使用分位数函数,例如:
quantile_over_time(0.99, probe_success{instance="https://www.google.com/"}[$__range])
这不完全是这个查询,但需要从基本的角度考虑分位数。
也就是说,直接回答问题,避免 1 分钟的停机时间,这可以帮助:
avg_over_time(((avg_over_time(probe_success{instance="https://www.google.com"}[75s]) * 75) > bool(60))[$__range:]) * 100
现在让我们剖析这个查询:
avg_over_time(probe_success{instance="https://www.google.com"}[75s])
获取超过 75 秒的探测平均值,因此我们可以尝试忽略 1 分钟的停机时间。调用此 UP_TIME_PERCENTAGE
。
UP_TIME_PERCENTAGE * 75
提供过去 75 秒内的正常运行时间(以秒为单位)。调用此 UP_TIME_75S
。
UP_TIME_75S > bool(60)
提供 bool 值 1 或 0 的时间线,指示正常运行时间是否超过一分钟。调用此 IS_UP_MORE_THAN_1M
avg_over_time(IS_UP_MORE_THAN_1M[$__range:]) * 100
得出给定 $__range
中正常运行时间超过 1m 的探测器的百分比。请注意 :
。在子查询上应用 ..._over_time
方法很重要。
关于Prometheus查询计算avg_over_time正常运行时间,但想忽略小于1分钟的停机时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59241381/
kubectl drain首先是否确保带有replicas=1的Pod在其他某个节点上是健康的? 假设Pod由部署控制,并且Pod确实可以移动到其他节点。 目前,如我所见,它仅从节点逐出(删除Pod)
在上一篇文章 STM8单片机低功耗—等待(Wait)模式实现 中介绍了低功耗模式中的等待(Wait)模式代码实现方法,这篇文章就来演示一下 停机(Halt)模式的代码实现。 停机(Halt)模式的进入
默认情况下,AWS 使用 LATEST更新了最新 lambda 版本的别名,我假设执行以下步骤。 现在,LATEST别名点版本 5。 用户部署新版本的 lambda。 部署新版本时,LATEST别名仍
情况 App Engine Flex 上的自定义运行时(Docker/Node) 当我们自己管理资源时手动扩展到 1 个单个实例(2 cpu/6 gb ram) 配置了活性和就绪检查 正如预期的那样,
我是一名优秀的程序员,十分优秀!