gpt4 book ai didi

Prometheus:对值(value)变化发出警报

转载 作者:行者123 更新时间:2023-12-04 21:06:47 30 4
gpt4 key购买 nike

如果 log_error_count,我想收到提醒至少增加了 1在过去的一分钟内。

所以最初我的查询看起来像

ALERT BackendErrors
IF rate(log_error_count[1m]) > 0
FOR 1s
...

但后来我尝试使用普罗米修斯仪表板对图表进行理智检查。

使用查询
log_error_count

我的图表看起来像

log_error_count

当我查看带有查询的图表时
rate(log_error_count[2m])

我的图表看起来像

rate(log_error_count[2m])

事实上我也试过函数 irate , changes , 和 delta ,它们都变为零。

为什么速率为零,我的查询需要看起来像什么才能在计数器增加一次时发出警报?

最佳答案

我有一个与planetlabs/draino 类似的问题:我希望能够检测到它何时耗尽了节点。
(不幸的是,他们将其对日志记录有意义的极简日志记录策略转移到没有意义的指标上......)
Draino_pod_ip:10002/metrics 端点的网页完全是空的......直到第一次排放发生时才存在......

我的需求稍微难以检测,当值 = 0 时(也就是在 pod 重启时),我不得不处理不存在的指标。
我必须检测从不存在 -> 1 和从 n -> n+1 的转换。
这就是我想出的,请注意我检测的指标是一个整数,我不确定这对小数的值(value)如何,即使它需要根据您的需求进行调整,我认为它可能会帮助您指明正确的方向:

(absent(draino_cordoned_nodes_total offset 1m) == 1 and count(draino_cordoned_nodes_total) > -1)

当度量从不存在切换到存在时,^ 创建一个 1 的 blip
((draino_cordoned_nodes_total - draino_cordoned_nodes_total offset 1m) > 0)

^ 当它从 n -> n+1 增加时创建一个 1 的 blip

结合2:
(absent(draino_cordoned_nodes_total offset 1m) == 1 and count(draino_cordoned_nodes_total) > -1) or ((draino_cordoned_nodes_total - draino_cordoned_nodes_total offset 1m) > 0)

^ 将它们结合在一起使我能够在 Grafana 图上将变化检测为 1 的单个光点,我认为这就是您所追求的。

关于Prometheus:对值(value)变化发出警报,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43875918/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com