gpt4 book ai didi

grafana - Grafana 中滑动窗口上的 Prometheus 正常运行时间或 SLA 百分比

转载 作者:行者123 更新时间:2023-12-04 19:27:58 46 4
gpt4 key购买 nike

我想创建一个 Grafana 'singlestat' 面板,根据测试失败指标的存在与否显示正常运行时间或 SLA '百分比'。

我已经有了合适的指标,e2e_tests_failure_count ,针对不同的测试框架。
这意味着以下查询返回观察到的测试失败的总和:

sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-2|test-framework-3",kubernetes_namespace="platform-edge"})

我已经设法创建了一个图表,如果一切正常,则为“1”,如果有任何测试失败,则为“0”:
1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"test-framework-1|test-framework-1|test-framework-1",kubernetes_namespace="platform-edge"}), 1)

enter image description here

我现在想要一个百分比值来显示一段时间内的“正常运行时间”(= 环境“健康”的时间量),例如最后5天。类似于“99.5%”,或者更适合截图的“65%”。

我试过这样的事情:
(1 - clamp_max(sum(e2e_tests_failure_count{kubernetes_name=~"service-cvi-e2e-tests|service-svhb-e2e-tests|service-svh-roundtrip-e2e-tests",kubernetes_namespace="platform-edge"}), 1))[5d]

但这只会导致解析器错误。谷歌搜索并没有真正让我更进一步,所以我希望我能在这里找到帮助:)

最佳答案

刚刚弄清楚这一点,我相信它会产生正确的结果。您必须使用记录规则,因为您无法在单个查询中从函数的实例向量结果创建范围向量,正如您已经发现的(您会收到解析错误)。因此,我们将函数结果(将是一个实例向量)记录为一个新的时间序列,并将其用作不同查询中的指标名称,然后您可以在其中添加 [5d]选择一个范围。

我们每分钟对所有服务运行多次测试,并且每个服务(“服务”是一个标签,其中每个服务的名称是标签值)都有不同数量的与之关联的测试,但是如果针对某个服务的任何测试鉴于服务失败,我们认为这是一个“停机时刻”。 (给定服务的测试失败次数在带有 status="failure" 标签值的指标中捕获。)我们将失败次数限制为 1,因此我们的值只有 0 和 1,因此可以转换“失败值”时间序列”改为“成功值时间序列”,使用不等式运算符和 bool修饰符。 (有关 bool 的使用的讨论,请参阅 this post。)因此,对于在该抓取间隔期间所有测试均成功的每个服务,第一个记录的指标的结果为 1,在至少有一次测试失败的情况下为 0对于该服务。

如果对于任何给定分钟返回的所有值,服务的失败次数 > 0,我们认为该服务在该分钟内“停机”。 (因此,如果我们在给定的一分钟内既有失败又有成功,则不算作停机时间。)这就是为什么我们有第二个记录的指标来生成实际的“这一分钟启动” bool 值。第二个记录的指标建立在第一个的基础上,这是可以的,因为 Prometheus 文档说记录的指标在每个组内连续运行。

因此,任何给定持续时间的“正常运行时间”是“这一分钟启动”值的总和(即每分钟上升 1 分钟)除以持续时间的总分钟数,无论该持续时间是多少。

由于我们已经定义了一个名为“minute_up_bool”的记录指标,因此我们可以在我们想要的任何范围内创建一个正常运行时间图。 (顺便说一句,记录的指标仅在您首次定义后生成,因此您不会将昨天的时间序列数据包含在您今天定义的记录指标中。)这是您可以在 Grafana 中放入的查询以显示正常运行时间百分比过去 5 天的移动窗口:

sum_over_time(minute_up_bool[5d]) * 100 / (5 * 24 * 60)

所以这是我们的录制规则配置:
groups:
- name: uptime
interval: 1m
# Each rule here builds on the previous one.
rules:
# Get test results as pass/fail => 1/0
# (label_replace() removes confusing status="failure" label value)
- record: test_success_bool
expr: label_replace(clamp_max(test_statuses_total{status="failure"}, 1), "status", "", "", "") != bool 1
# Get the uptime as 1 minute range where the sum of successes is not zero
- record: minute_up_bool
expr: clamp_max(sum_over_time(test_success_bool[1m]), 1)

关于grafana - Grafana 中滑动窗口上的 Prometheus 正常运行时间或 SLA 百分比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50273977/

46 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com