gpt4 book ai didi

prometheus - 使用 Prometheus 监控 OOM

转载 作者:行者123 更新时间:2023-12-05 08:31:00 29 4
gpt4 key购买 nike

我想利用 Prometheus 来监控 Debian/Ubuntu 上系统 OOM killer 的出现。特殊情况是,有时 Redis 由于 OOM 而被杀死,并且由于发生得太快而没有触发已经存在的可用内存不足警报。但我想让解决方案尽可能智能和通用,并且不想花太多时间在上面,所以让我们不要专注于 Redis 本身。到目前为止我的想法:

  • 使用现有的与内存相关的 Prometheus 指标,仅在极低的值(即剩余 1% 内存)和低“for”值(即 5 秒)时触发它们 - 此解决方案可能有效并且实现起来非常简单,但我认为它可能不可靠(不一定在所有 OOM 上触发并且仅在 OOM 上触发)
  • 创建一个 bash 脚本,定期检查 dmesg 并根据适当的 grep 结果创建指标 - 可能有效,但问题可能在于正确识别已经从新消息中 grep 的 dmesg 消息(不要对同一个 OOM 发出两次警告) ;这个解决方案也不是很优雅
  • 创建自定义 Prometheus 导出器 - 如果编写得当可能会按预期工作,但创建它可能需要大量工作,我希望避免这种情况

我想征求您的建议和意见。谢谢!

最佳答案

节点导出器的 node_vmstat_oom_kill 指标会告诉您这一点。

关于prometheus - 使用 Prometheus 监控 OOM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60505564/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com