Prometheus查询计算avg_over_time正常运行时间，但想忽略小于1分钟的停机时间-6ren

Prometheus查询计算avg_over_time正常运行时间，但想忽略小于1分钟的停机时间

转载作者：行者123 更新时间：2023-12-04 10:55:16

26

4

我是 Prometheus 的新手，我在下面做了一个查询，试图以百分比的形式显示某个网站的平均正常运行时间，以供 SLA 监控(例如 Google)。

(avg_over_time(probe_success{instance="https://www.google.com/"}[$__range])) * 100

但是，是否可以让计算忽略任何少于 1 分钟的停机时间？

最佳答案

为探测制定 SLA 的最佳方法是使用分位数函数，例如:

quantile_over_time(0.99, probe_success{instance="https://www.google.com/"}[$__range])

这不完全是这个查询，但需要从基本的角度考虑分位数。

也就是说，直接回答问题，避免 1 分钟的停机时间，这可以帮助:

avg_over_time(((avg_over_time(probe_success{instance="https://www.google.com"}[75s]) * 75) > bool(60))[$__range:]) * 100

现在让我们剖析这个查询:

avg_over_time(probe_success{instance="https://www.google.com"}[75s]) 获取超过 75 秒的探测平均值，因此我们可以尝试忽略 1 分钟的停机时间。调用此 UP_TIME_PERCENTAGE。

UP_TIME_PERCENTAGE * 75 提供过去 75 秒内的正常运行时间(以秒为单位)。调用此 UP_TIME_75S。

UP_TIME_75S > bool(60) 提供 bool 值 1 或 0 的时间线，指示正常运行时间是否超过一分钟。调用此 IS_UP_MORE_THAN_1M

avg_over_time(IS_UP_MORE_THAN_1M[$__range:]) * 100 得出给定 $__range 中正常运行时间超过 1m 的探测器的百分比。请注意 :。在子查询上应用 ..._over_time 方法很重要。

关于Prometheus查询计算avg_over_time正常运行时间，但想忽略小于1分钟的停机时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59241381/

26

4

0

kubernetes - kubectl排水和滚动更新，停机
kubectl drain首先是否确保带有replicas=1的Pod在其他某个节点上是健康的？假设Pod由部署控制，并且Pod确实可以移动到其他节点。目前，如我所见，它仅从节点逐出(删除Pod)
STM8单片机低功耗---停机(Halt)模式实现
在上一篇文章 STM8单片机低功耗—等待(Wait)模式实现中介绍了低功耗模式中的等待（Wait）模式代码实现方法，这篇文章就来演示一下停机(Halt)模式的代码实现。停机(Halt)模式的进入
amazon-web-services - 部署新版本时 Lambda 停机
默认情况下，AWS 使用 LATEST更新了最新 lambda 版本的别名，我假设执行以下步骤。现在，LATEST别名点版本 5。用户部署新版本的 lambda。部署新版本时，LATEST别名仍
google-app-engine - 当实例自动重启时如何防止 App Engine Flex 停机
情况 App Engine Flex 上的自定义运行时(Docker/Node) 当我们自己管理资源时手动扩展到 1 个单个实例(2 cpu/6 gb ram) 配置了活性和就绪检查正如预期的那样，