gpt4 book ai didi

kubernetes - 如何提醒 Kubernetes 集群健康?

转载 作者:行者123 更新时间:2023-12-04 19:00:07 26 4
gpt4 key购买 nike

我们在 Google Cloud (GKE) 上作为托管 Kubernetes 集群运行,并使用 Prometheus 抓取它。

我的问题类似于 this一,但我想知道在 K8s 集群中需要注意哪些最重要的指标并可能发出警报?

这是一个 K8s 而不是 Prometheus 的问题,但我真的很感激一些提示。如果我的问题含糊不清,请告诉我,以便我对其进行改进。

最佳答案

etcd 是 Kubernetes 的基础。因此,有一套好的警报是很重要的。
我们写了this blog post并为其创建警报规则,并在最后提供了一个基础集。

Prometheus 格式的重要指标的其他来源是 Kubelet 和 cAdvisor、API 服务器以及相当新的 kube-state-metrics。 .
对于那些,不幸的是,我不知道有任何与 etcd 一样的公共(public)警报规则集。

通常,您希望确保作为应用程序的组件完美运行,例如:

  • 我的 kubelets/API 服务器是否正在运行/可访问? (up 公制)
  • 他们的响应延迟和错误率是否在界限内?
  • API 服务器可以访问 etcd 吗?

  • 然后是 Kubernetes 业务逻辑方面,例如:
  • 是否存在永远处于非就绪/崩溃循环状态的 pod?
  • 我的集群中是否有足够的 CPU/内存容量?
  • 我的部署副本预期是否得到满足?

  • 不幸的是,这不是一个简单的解决方案,但是编写大致涵盖上述示例范围的警报规则应该会让你走得很远。

    关于kubernetes - 如何提醒 Kubernetes 集群健康?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39366111/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com