gpt4 book ai didi

amazon-web-services - “Kubelet 停止发布节点状态”和节点不可访问

转载 作者:行者123 更新时间:2023-12-02 16:29:40 25 4
gpt4 key购买 nike

我在一个相当新的集群中遇到了一些问题,其中几个节点(似乎总是成对发生但可能只是巧合)将变为 NotReady 并且 kubectl describe 会说 Kubelet停止发布内存、磁盘、PID 和就绪的节点状态。

所有正在运行的 pod 都卡在正在终止(可以使用 k9s 连接到集群并看到这个),我找到的唯一解决方案是封锁并排空节点。几个小时后,它们似乎被删除并创建了新的。或者,我可以使用 kubectl 删除它们。

它们完全无法通过 ssh 访问(超时),但 AWS 报告 EC2 实例没有问题。

在过去一周内,这种情况已经发生了 3 次。一切都恢复正常,但显然存在一些问题,我想查个水落石出。

如果我根本无法进入箱子,我将如何着手找出发生了什么? (实际上,我只是想到可能拍摄该卷的快照并安装它,所以如果它再次发生,我会尝试这样做,但欢迎任何其他建议)

运行 kubernetes v1.18.8

最佳答案

这里有两种最常见的可能性,这两种可能性都很可能是由大负载引起的:

  • Out of Memory kubelet 主机上的错误。可以通过添加适当的--kubelet-extra-args来解决至 BootstrapArguments .例如:--kubelet-extra-args "--kube-reserved memory=0.3Gi,ephemeral-storage=1Gi --system-reserved memory=0.2Gi,ephemeral-storage=1Gi --eviction-hard memory.available<200Mi,nodefs.available<10%"

  • 解释了一个问题 here :

kubelet cannot patch its node status sometimes, ’cos more than 250resources stay on the node, kubelet cannot watch more than 250 streamswith kube-apiserver at the same time. So, I just adjust kube-apiserver--http2-max-streams-per-connection to 1000 to relieve the pain.

您可以调整上面提供的值,或者尝试找出高负载/iops 的原因并尝试将其调低。

关于amazon-web-services - “Kubelet 停止发布节点状态”和节点不可访问,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63759047/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com