gpt4 book ai didi

riemann - 使用 Riemann 报告 CPU 始终正常

转载 作者:行者123 更新时间:2023-12-04 16:08:01 25 4
gpt4 key购买 nike

我们正在使用 Riemann 和 Riemann-health 来监控我们的服务器。但是现在我收到了很多 CPU 严重警告,因为 CPU 在很短的时间内达到峰值 - 我认为这甚至不需要知道。根据我的理解,持续的高 CPU 使用率会增加平均负载,这也会被报告并且听起来更有用。

我不想禁用报告 CPU,只是每个级别都应该被认为是可以的。如果可能,我想更改 Riemann 服务器上的事件,这样我就不必更改所有服务器。

这是我们的黎曼配置:https://gist.github.com/iGEL/e352764a8c559440c851

最佳答案

我没有完整的解决方案,但理论上您应该能够通过 where 过滤与 CPU 相关的事件。函数并使用 with 无条件地将状态设置为“ok”如下:

(streams
(where (service #"cpu")
(with :state "ok" index)))

另一方面,依赖平均负载并不是一个好主意,因为高平均负载也可能意味着 a large number of processes are waiting for IO .

您可以仅在 CPU 未处于正常状态的时间超过 X 个时间单位时发出警报,而不是使 CPU 警报静音。
更好的是,对代表影响客户端的问题的更高级别指标发出警报,例如响应延迟、http 状态代码、错误级别等。
毕竟,如果 CPU 很高,但对系统没有影响,警报可能只是噪音。

关于riemann - 使用 Riemann 报告 CPU 始终正常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33801625/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com