gpt4 book ai didi

google-cloud-platform - GCP 正常运行时间指标发出不可靠的警报

转载 作者:行者123 更新时间:2023-12-04 03:42:50 25 4
gpt4 key购买 nike

尝试通过创建警报策略在 GCE 虚拟机处于关闭状态时获得警报。
公制:compute.googleapis.com/instance/uptime资源:虚拟机实例
并进行了配置,以便在此条件不存在 3 分钟时触发警报。
为了模拟上述行为,我停止了虚拟机,但它没有触发警报,同时数据在警报策略图中不可见
已附加触发器配置
enter image description here

最佳答案

当 VM 处于停止状态时,没有任何指标提供可靠的警报,它们是 compute.googleapis.com/instance/uptime 或监控代理的正常运行时间或 CPU 利用率指标,直到您使用 MQL - 监控查询语言创建警报策略。
“指标缺失政策不考虑与 TERMINATED 或 DELETED Google Cloud 资源关联的指标。这意味着您不能使用指标缺失政策来测试 TERMINATED 或 DELETED Google Cloud 虚拟机。”
https://cloud.google.com/monitoring/alerts/types-of-conditions#metric-absence
所以根据上面的说法,我们不能对停止的 vm 使用 metic 缺席策略 - 因为它在停止一段时间后进入终止状态。原因是,它仅在它再次变为运行状态时才计算实例停止时间。
但是,当您使用具有相同指标集的 MQL 配置相同的条件时,指标缺失策略的工作不会出现任何问题。
样本:
不是通过选择资源和指标来配置条件,而是转到查询编辑器并键入以下查询以在开发环境 VM 未处于运行状态 3 分钟时获取警报。

fetch gce_instance
| metric 'compute.googleapis.com/instance/uptime'
| filter (metadata.user_labels.env == 'dev')
| group_by 1m, [value_uptime_aggregate: aggregate(value.uptime)]
| every 1m
| absent_for 180s
不确定这是否是错误,但这是我们以传统方式配置警报条件时的限制,我们可以通过利用 MQL 来解决此问题。

关于google-cloud-platform - GCP 正常运行时间指标发出不可靠的警报,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65667096/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com