gpt4 book ai didi

kubernetes - Rancher 2.0 - 故障排除和修复 “Controller Manager Unhealthy Issue”

转载 作者:行者123 更新时间:2023-12-02 11:35:36 24 4
gpt4 key购买 nike

我遇到 Controller 管理器和调度程序没有响应的问题,这与我发现的 github 问题无关(rancher#11496azure#173、……)

两天前,我们的 3 节点 HA 集群中的一个节点上的一个 POD 发生内存溢出。在无法访问 rancher webapp 之后,我们找到了受感染的 pod 并通过 kubectl 将其缩放为 0。但这花了一些时间,弄清楚了一切。

此后 rancher webapp 正常工作,但 Controller 管理器和调度器不断发出警报,无法正常工作。警报不一致,有时它们都在工作,有时它们的健康检查网址拒绝连接。

NAME                 STATUS      MESSAGE                                                                                     ERROR
controller-manager Unhealthy Get http://127.0.0.1:10252/healthz: dial tcp 127.0.0.1:10252: connect: connection refused
scheduler Healthy ok
etcd-0 Healthy {"health": "true"}
etcd-2 Healthy {"health": "true"}
etcd-1 Healthy {"health": "true"}

在受感染的节点上重新启动 Controller 管理器和调度程序没有效果。甚至重新加载所有组件

docker restart kube-apiserver kubelet kube-controller-manager kube-scheduler kube-proxy也没有效果。

有人可以帮我找出在运行容器不停机的情况下解决和解决此问题的步骤吗?

节点托管在 DigitalOcean 上的服务器上,每个服务器具有 4 个内核和 8GB RAM(Ubuntu 16,Docker 17.03.3)。

提前致谢!

最佳答案

要查看的第一个区域是您的日志...您可以导出以下日志并附加它们吗?

/var/log/kube-controller-manager.log

Controller 管理器是一个端点,因此您需要执行“获取端点”。你能运行以下命令吗:

kubectl -n kube-system get endpoints kube-controller-manager

kubectl -n kube-system describe endpoints kube-controller-manager

kubectl -n kube-system get endpoints kube-controller-manager -o jsonpath='{.metadata.annotations.control-plane\.alpha\.kubernetes\.io/leader}'

关于kubernetes - Rancher 2.0 - 故障排除和修复 “Controller Manager Unhealthy Issue”,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54827814/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com