gpt4 book ai didi

kubernetes - 尝试实现自定义 Kubernetes 监控系统时的最佳实践

转载 作者:行者123 更新时间:2023-12-04 21:02:22 26 4
gpt4 key购买 nike

我有两个 Kubernetes 集群代表开发和登台环境。

另外,我还部署了一个自定义 DevOps 仪表板,用于监控这两个集群。在此仪表板上,我需要显示以下信息:

  • 每个环境中每个已部署 Pod 的 RAM/HD 空间/CPU 使用率
  • Pod 运行状况(例如容器重启次数过多等)
  • Pod 正常运行时间

  • 所有这些统计信息都必须在集群级别以及每个命名空间,最好。就像,如果我查询特定命名空间的 a,我必须获取该命名空间的所有资源使用情况。

    因此,我的仪表板的 web 服务层将向我各自集群的主节点发送服务请求,以获取此信息。

    我需要的另一件事是在我的 DevOps 仪表板中实现实时通知。每次容器发生故障时,我都需要捕获该事件并通知相关人员。

    我一直在阅读,经常出现的两件事是 Prometheus 和 Metric Server。我需要两个还是一个都需要?我在本地集群上设置了 Prometheus,但找不到它公开的任何可以由我的仪表板服务调用的端点。我也在尝试设置 Prometheus AlertManager,但到目前为止它没有按预期工作。现在正在尝试修复它。只是想检查一下这些技术是否有能力满足我的要求。

    谢谢!

    最佳答案

    我不知道您为什么要考虑自己的自定义监控系统。 Prometheus operator提供您提到的所有功能。
    您最终只会拥有自己的 Grafana 仪表板,其中包含所有必需的信息。

    如果您需要自定义通知,您可以在 Alertmanager 中进行设置创建正确 prometheusrules.monitoring.coreos.com ,你可以在kubernetes-mixin中找到很多预配置的prometheusrules .
    使用 Alertmanager 中的标签和命名空间,您可以设置正确的路由来通知负责给定部署的人员。
    Do I need both or will one do? ,是的,两者都需要 - PrometheusMetrick server 时收集和聚合指标从您的集群节点公开指标,供您的 Prometheus 抓取它。

    如果您对 Prometheus、Alertmanger 等有问题,请考虑使用 helm chart作为入口点。

    关于kubernetes - 尝试实现自定义 Kubernetes 监控系统时的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57235069/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com