gpt4 book ai didi

grafana - 丢失系列/数据的警报

转载 作者:行者123 更新时间:2023-12-03 16:24:23 26 4
gpt4 key购买 nike

我试图了解如何在不再抓取指标时让 Grafana 提醒我。

我在这个例子中使用的指标是 mongodb_instance_uptime_seconds .当实例出现故障时,不再生成指标,导致 Prometheus 中缺少指标。目前警报在 when last() query(A, 1m, now) < 600 上触发.如您所见,目标是在正常运行时间低于 5 分钟时发出警报。这意味着我想提醒重启和停止,但 Grafana 在一个实例关闭时不会提醒,因为 last()值实际上不存在,当实例停机超过 5 分钟时,它甚至不再报告。

关于如何前进的任何线索?

最佳答案

通常用于确定实例是否被成功抓取的指标是 up .它是由所有抓取作业自动生成的,因此如果您想要任何关闭的抓取端点的警报,只需使用查询 up == 0 ,这将显示上次抓取不成功的所有端点。如果您只想针对此特定端点发出警报,请使用类似 up{instance="mongodb.foo.com",job="mongo"} == 0 的标签。
如果您对此感兴趣,使用 Alertmanager 而不是 Grafana,则规则如下所示:

groups:
- name: General
rules:
- alert: Endpoint_Down
expr: up == 0
for: 5m
labels:
severity: critical
annotations:
summary: "Exporter is down: {{ $labels.instance }}"
description: "The endpoint {{ $labels.instance }} is not able to be scraped by Prometheus."

关于grafana - 丢失系列/数据的警报,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52815020/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com