monitoring - Prometheus-Alertmanager 警报的复杂规则/过滤器-6ren

monitoring - Prometheus-Alertmanager 警报的复杂规则/过滤器

转载作者：行者123 更新时间：2023-12-02 15:24:51

25

4

情况:我设置了 Prometheus 和 Alertmanager，用于监控各种设备的 CPU 温度等。 Alertmanager 将警报从生产设备发送到 PagerDuty。

我正在监控的设备有不同的型号和不同的操作规范。型号 1-5 的正常 CPU 温度为 50C，型号 6 的正常 CPU 温度为 70C。目前，CPU 温度警报的阈值是 60C，因此 PagerDuty 会不断从在正常温度下运行的 Model 6 设备获取警报。

如果温度低于 80C，是否有办法仅过滤来自型号 6 设备的 CPU 温度警报，而在 60C 时仍能获得型号 1-5 设备的 CPU 温度警报？

注意:还有许多其他指标正在受到监控，但对于除 CPU 温度之外的所有指标，所有设备型号都具有完全相同的阈值。

这是我的 alertmanager.yml 中的一个片段，它将产品警报发送到 PagerDuty

- match:
    stack_name: prod
    severity: critical
  receiver: PagerDuty

诚然，我没有丰富的 YML 经验。但这就是我希望做的，但我不确定正确的语法:

- match:
    stack_name: prod
    severity: critical
    alertname: !device_cpu_temperature
  receiver: PagerDuty
- match:
    stack_name: prod
    severity: critical
    alertname: device_cpu_temperature
    uuid: !*6X*
  receiver: PagerDuty
- match: 
    stack_name: prod
    severity: critical
    alertname: device_cpu_temperature
    uuid: *6X*
    value: >80
  receiver: PagerDuty

期望的结果:

除 device_cpu_Temperature 之外的所有关键产品警报都会发送至 PagerDuty
仅当型号不是 6(uuid 包含型号后跟“X”)时，关键产品 device_cpu_Temperature 警报才会发送到 PagerDuty
仅当 CPU 温度高于 80C 时，来自型号 6 设备的关键产品 device_cpu_Temperature 警报才会发送到 PagerDuty。

或者在 prometheus 中拥有 2 个不同的警报规则会更好吗？某些规则是否只能应用于某些设备？如果是这样，怎么办？

最佳答案

更简单的方法是在 Prometheus 中创建不同的警报规则。

实际上，警报管理器仅用于发送、分组、过滤等警报，而不是评估指标。

您可以通过 Prometheus 配置中的两个不同警报来实现此目的，按主机名或导出器提供的任何其他标签进行过滤。

服务器 1-5 的表达式应如下所示:

 - alert: ServiceProbeFailed
   expr: cpu_temperature{hostname!~".*server_6.*"} > 50

服务器 6 的规则:

 - alert: ServiceProbeFailed
   expr: cpu_temperature{hostname=~".*server_6.*"} > 70

警报具有相同的名称，因此警报管理器将具有相同的警报。

关于monitoring - Prometheus-Alertmanager 警报的复杂规则/过滤器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51426815/

25

4

0

文章推荐： go - 为什么逐行读取文件需要更多内存？

文章推荐： bonjour - 如何将文件服务器服务发布到本地网络？

文章推荐： PHP Array_独特问题

文章推荐： haskell - 如何确定 Haskell 中是否正在内存某个函数？

prometheus-alertmanager - Alertmanager 中的指纹字段是唯一的吗？
我正在开发一个仪表板，它接收所有 Alertmanager 读数并处理它们。我在请求负载中寻找一个唯一的字段来在我的数据库中创建一个唯一的外部警报 ID。请求有效负载如下所示: { "status
Alertmanager，不同警报规则的不同间隔
我正在使用警报管理器来获取普罗米修斯指标的警报，我对不同的指标有不同的警报规则，是否可以为每个警报规则设置不同的间隔，例如对于 metric1，我有规则 1，我需要每天检查此规则间隔，对于 metri
Prometheus alertmanager 自定义接收器
我目前正在尝试设置 Prometheus 和 Alertmanager，我遇到但尚未找到解决方案的问题是我希望通过 oauth2 授权将警报发送到我们的自定义应用程序。有什么方法可以构建/配置自己的
docker - AlertManager —容器警报在运行时未返回主机名
我面临一个问题，我在alert_rules.yml中使用以下规则当我收到警报时，它不会返回容器正在运行的主机名。如何实现返回主机名而不是节点ID？我尝试使用container_label_com_
yaml - Loki 没有提醒 Alertmanager
我是 Loki 的新手，在 Loki 中发出了警报，但我在 Alertmanager 中没有看到任何通知。 Loki 工作正常(收集日志)，Alertmanager 也正常(从其他来源获取警报)，但来
prometheus - 如何在 Alertmanager 中向一个接收者组发送多个警报？
我在这里看过这个问题/答案:Prometheus AlertManager - Send Alerts to different clients based on routes 这对我来说是一个很好的
monitoring - Prometheus AlertManager - 根据路由向不同客户端发送警报
我有 2 个服务 A 和 B 我想监视它们。此外，我有 2 个不同的通知 channel X 和 Y 在 AlertManager 配置文件中以 receivers 的形式。如果服务 A 宕机，我想
monitoring - Prometheus 不会将警报推送到 AlertManager
虽然 Prometheus 说警报已被触发，但我的警报管理器没有收到任何警报。它说“没有警报”。这只是为了在我的本地机器上进行测试。这是我的 prometheus.yml --- rule_file
kubernetes - CommonAnnotations 不适用于 AlertManager
我正在尝试通过 Prometheus 设置 Alertmanager。我已经编写了警报规则和 alertmanager.yaml 文件。我可以通过 alertmanager 向 slack 发送警报。
java - 如何覆盖 Tapestry AlertManager
我创建了扩展警报管理器:界面 public interface AlertManagerExt extends AlertManager { void successCode(String m
go - Prometheus alertmanager 的处理顺序
我目前正在重新设计警报管理器的现有警报配置。只有一个小问题，我不完全了解警报管理器。假设我有以下配置； routes: match: severity:"warning" receiver: "
kubernetes - AlertManager 没有将警报转发给 webhook 接收器
我们使用 PrometheusOperator 在 kubernetes 集群中设置了 Prometheus。我们正在尝试使用 AlertManagerConfig 自定义资源配置 AlertMana
prometheus - 在 Alertmanager webhook 中使用标签
我的警报配置如下。 ALERT PoDHighCPUUsage IF sum(rate(container_cpu_usage_seconds_total{container_label_io_k
kubernetes - K8S - 无法通过 - alertmanager 查看警报
我有 Prometheus 运算符，它按预期工作 https://github.com/coreos/prometheus-operator 现在我想申请 alert manager从零开始阅读文档
kubernetes - 如何使用配置文件使 Prometheus Alertmanager 静音？
我用的是官方stable/prometheus-operator chart 确实使用 helm 部署 Prometheus。到目前为止，它运行良好，除了烦人的 CPUThrottlingHigh为
monitoring - Prometheus-Alertmanager 警报的复杂规则/过滤器
情况:我设置了 Prometheus 和 Alertmanager，用于监控各种设备的 CPU 温度等。 Alertmanager 将警报从生产设备发送到 PagerDuty。我正在监控的设备有不同
java - Android AlertManager 通过重启、更新等
我们 Android 应用程序的一个主要组件是在特定时间使用 AlarmManager 向用户发送通知。 . 当用户创建新的“记录”时，我们会在现场排队发出警报。因此，如果下载应用程序、打开它并创建一
security - 为 Alertmanager 配置 HTTPS 和基本身份验证
我想用 tls 和身份验证来保护我的 Alertmanager，这样在我的网络中，并不是每个人都能访问面向公众的端点。我不想使用 nginx 服务器作为代理。这将是我的普罗米修斯配置: global:
prometheus-alertmanager - 普罗米修斯警报管理器 : How do I prevent grouping in notifications
我试图在一个简单的设置中设置警报管理器，它会为收到的每个通知发送一个 Slack 通知。我希望通过删除 group_by 配置来禁用分组。问题是，当我一个接一个地发送 2 个警报时，即使警报管理器
prometheus - 如何使用 Promtail/Loki - AlertManager 为我的日志中的每个错误发送警报？
我正在使用 Promtail + Loki 来收集我的日志，但我不知道如何提醒每我的日志文件中的错误。我也在使用 Prometheus、Alertmanager 和 Grafana。我看到有些人已经

首页

博学

6Ren·AI

商城

monitoring - Prometheus-Alertmanager 警报的复杂规则/过滤器