gpt4 book ai didi

Alertmanager,不同警报规则的不同间隔

转载 作者:行者123 更新时间:2023-12-04 07:38:23 25 4
gpt4 key购买 nike

我正在使用警报管理器来获取普罗米修斯指标的警报,我对不同的指标有不同的警报规则,是否可以为每个警报规则设置不同的间隔,例如对于 metric1,我有规则 1,我需要每天检查此规则间隔,对于 metric2 我有规则 2,这个应该每 2 小时检查一次,

最佳答案

for: 5m属性用于确保规则在触发警报之前连续 X 分钟返回 true。例如,如果 cpu 使用率飙升 30 秒,则不会触发警报,因为我们设置了 for属性到5分钟。因此,这不是适合您的房产。
我相信您可以使用repeat_interval警报管理器设置发送通知的时间间隔。然后你有警报,但你根据你的 repeat_interval 触发/触发它.此 link详细解释了它们。

  • group_wait设置最初等待发送特定警报组通知的时间。
  • group_interval指示在发送有关添加到之前已收到警报的警报组中的新警报的通知之前等待多长时间
  • repeat_interval用于确定已成功发送到接收器的触发警报再次发送之前的等待时间。

  • 为了让它们工作,你必须定义 label是针对每个警报。例如,在我的 alerts.yml文件我创建标签 app_type: serverapp_type: service :
    groups:
    - name: monitor_cpu
    rules:
    - alert: job:node_cpu_usage:percentage_gt_50
    expr: 100 * node_cpu_seconds_total{mode="user"} / ignoring(mode) group_left sum(node_cpu_seconds_total) without(mode) > 5.5
    for: 1m
    labels:
    severity: critical
    app_type: server
    annotations:
    summary: "High CPU usage"
    description: "Server {{ $labels.instance }} has high CPU usage."
    - name: targets
    rules:
    - alert: monitor_service_down
    expr: up == 0
    for: 1m
    labels:
    severity: critical
    app_type: service
    annotations:
    summary: "Monitor service non-operational"
    description: "Service {{ $labels.instance }} is down."
    然后我创建一个路由树,通过匹配特定标签向不同的组发送通知。这是我使用的解决方案。我定义了不同的 group_wait , group_interval , 和 repeat_interval对于每个组。然后你可以使用 repeat_interval: 1hrepeat_interval: 24h在不同 routes叶子:
    global:
    smtp_from: 'mail@gmail.com'
    smtp_smarthost: smtp.gmail.com:587
    smtp_auth_username: 'mail@gmail.com'
    smtp_auth_identity: 'mail@gmail.com'
    smtp_auth_password: ''

    route:
    receiver: 'admin-team'
    routes:
    - match_re:
    app_type: (server|service)
    receiver: 'admin-team'
    routes:
    - match:
    app_type: server
    receiver: 'admin-team'
    group_wait: 1m
    group_interval: 5m
    repeat_interval: 1h
    - match:
    app_type: service
    receiver: 'dev-team'
    group_wait: 1m
    group_interval: 5m
    repeat_interval: 24h

    receivers:
    - name: 'admin-team'
    email_configs:
    - to: 'admin-mail@gmail.com'

    - name: 'dev-team'
    email_configs:
    - to: 'dev-mail@gmail.com'

    不幸的是,我没有进行 24 小时的测试,但有不同的分钟间隔并且它起作用了。我认为它也会长时间工作。
    enter image description here

    关于Alertmanager,不同警报规则的不同间隔,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67628163/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com