修复一个kubernetes集群-6ren

修复一个kubernetes集群

转载作者：撒哈拉更新时间：2024-10-22 20:20:49

57

4

前几天有个朋友把他们的kubernetes集群搞挂了，让我帮忙恢复一下，由于很多现场都没有了，这里提供一下解决思路.

环境问题

该环境有一个master节点，即控制面pod(etcd、scheduler等)也都只有一个pod 。

问题起因是他们的服务访问出了点问题，为修复该问题，他:

备份了etcd数据(数据是3天前的)
重启了docker
将etcd数据恢复(数据是3天前的)

然后访问服务依然不通.

问题诊断

deployment reversion不匹配

首先看到pod并非running状态，直接删除pod，让其重建，查看pod创建过程，发现pod并没有分配到node.

问题分析

首先怀疑可能kube-scheduler出现了问题:

删除kube-scheduler pod发现无法重建该pod
最后通过将/etc/kubernetes/manifests/kube-scheduler.yaml文件移出再移入的方式创建出scheduler pod

此时仍然无法调度pod，因此怀疑是在scheduler之前出现了问题，查看api-server的日志，发现有很多reversion版本不匹配的错误，应该是集群中的资源版本和etcd中的资源版本不匹配导致的:

使用etctctl检查etcd的状态，发现etcd一切正常。

etcdctl endpoint health
etcdctl endpoint status --write-out=table

使用kubectl rollout history deployment/<deployment_name>查看etcd中保存的的deployment的版本，然后执行kubectl rollout undo daemonset/<deployment_name> --to-revision=<version>回滚到与etcd匹配的版本.

回滚之前可以通过kubectl rollout history daemonset/<deployment_name> --revision=<version>对比etcd和环境中的配置区别。
回滚之后发现pod可以正常创建出来。

Iptables丢失问题

pod起来之后，服务访问仍然不通。使用kubectl describe命令查看服务的service，发现没有找到service对应的endpoints，一开始还以为是service的yaml的问题，debug了大半天发现绝大部分services都没有endpoints。。.

问题分析

service找不到endpoints，体现在系统中就是可能没有创建出iptables规则:

使用iptables-save命令查看，发现果然没有kubernetes的iptables规则
该环境使用的是ipvs模式，使用ipvsadm -l -n也发现service的cluster IP没有对应的pod IP
查看kube-proxy日志，并未发现任何异常

此时想到的方式有:

重新创建pod和对应的service，刷新iptables：尝试失败，重建之后并未生成iptables
重建节点：所有节点都存在问题，无法通过kubectl drain迁移pod
手动添加iptables：太过复杂，即便成功，也会污染节点的iptables规则。
重新创建kube-proxy pod：重启kube-proxy pod之后也并未创建iptables规则

最后怀疑kube-proxy也可能出现问题，需要重新初始化kube-proxy，恰好kubeadm有如下命令可以重新初始化kube-proxy:

kubeadm init phase addon kube-proxy --kubeconfig ~/.kube/config --apiserver-advertise-address <api-server-ip>

在重新初始化kube-proxy之后发现iptables规则创建成功，删除并创建pod和service之后可以正确创建出对应的iptables规则，此时service也有了endpoints.

CNI连接错误

在上一步重启pod之后，发现有一个webhook对应的pod没有重启成功，用kubectl describe 该pod发现如下错误:

networkPlugin cni failed to set up pod "webhook-1" network: Get "https://[10.233.0.1]:443/api/v1/namespaces/volcano-system": dial tcp 10.233.0.1:443: i/o timeout

该集群使用的是calico CNI，查看该CNI对应的daemonset，发现只有5个pod是ready的.

删除"webhook-1" pod所在的节点的"calico-node" pod，发现该"calico-node" pod启动失败.

问题分析

在上述错误中，"10.233.0.1"为kubernetes apiserver的service cluster IP，由于"clico-node" pod使用的是hostnetwork，因此可以直接在node上测试联通性，使用telnet 10.233.0.1 443测试，发现果然不通.

calico的/etc/cni/net.d/10-calico.conflist配置文件中定义了连接apiserver所需的kubeconfig文件:

{
  "name": "cni0",
  "cniVersion":"0.3.1",
  "plugins":[
    {
      ... 
      "kubernetes": {
        "kubeconfig": "/etc/cni/net.d/calico-kubeconfig"
      }
    },
    ...
  ]
}

而/etc/cni/net.d/calico-kubeconfig中就定义了连接apiserver所需的地址和端口，因此只需将该地址端口换成apiserver pod的地址和端口应该就可以解决该问题:

# cat /etc/cni/net.d/calico-kubeconfig
# Kubeconfig file for Calico CNI plugin.
apiVersion: v1
kind: Config
clusters:
- name: local
  cluster:
    server: https://[10.233.0.1]:443
    certificate-authority-data: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0...
users:
- name: calico
  user:
    token: eyJhbGciOiJSUzI1NiIsImtpZC...
contexts:
- name: calico-context
  context:
    cluster: local
    user: calico

Calico提供了如下两个环境变量用于修改生成的kubeconfig中的apiserver的地址和端口，将如下环境变量加入calico的daemonset，重新创建calico-node pod即可:

- name: KUBERNETES_SERVICE_HOST
  value: <api-server-pod-ip>
- name: KUBERNETES_SERVICE_PORT
  value: "6443"

至此，问题基本解决。由于错误的操作，该集群出现了大量问题，后续可以通过驱逐节点pod的方式，重新初始化整个节点，逐步重置集群节点配置.

最后此篇关于修复一个kubernetes集群的文章就讲到这里了,如果你想了解更多关于修复一个kubernetes集群的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

57

4

0

文章推荐： Saas多租户数据权限设计（参考RuoYi）

文章推荐：门罗币隐私保护之环签名

文章推荐：敏捷思维-项目实践

文章推荐：线上debug&gateway自定义路由规则

kubernetes - Kubernetes 中的 skydns 服务无法解析 'kubernetes'
core@core-1-94 ~ $ kubectl exec -it busybox -- nslookup kubernetesServer: 10.100.0.10Address 1: 1
kubernetes - 如何从 kubernetes 集群注销 kubernetes 节点
我有一个节点错误地注册在集群 B 上，而它实际上为集群 A 服务。这里“在集群 B 上注册”意味着我可以从 kubectl get node 看到节点来自集群 B。我想从集群 B 中取消注册这个节
kubernetes - Kubernetes 和 Kubernetes Engine 有什么区别？
据我所知，Kubernetes 是一个用于部署和管理容器的编排框架。另一方面，Kubernetes Engine 负责集群的伸缩，以及管理容器镜像。从上面看，它们似乎是同一件事或非常相似。从上面的定
kubernetes - 使用非管理权限在本地运行 Kubernetes 并且缺少 kubernetes 配置文件
我正在学习 Kubernetes 和 Docker，以启动一个简单的 Python 网络应用程序。我对上述所有技术都不熟悉。下面是我计划的方法: 安装 Kubernetes。在本地启动并运行集群。
kubernetes - kubernetes 就绪检查应该检查什么
我了解如何在 kubernetes 中设置就绪探测器，但是是否有任何关于在调用就绪探测器时微服务应实际检查哪些内容的最佳实践？两个具体例子: 一个面向数据库的微服务，如果没有有效的数据库连接，几乎所有
kubernetes - Kubernetes 调度器依赖于哪些指标？
Kubernetes 调度程序是仅根据请求的资源和节点在服务器当前快照中的可用资源将 Pod 放置在节点上，还是同时考虑节点的历史资源利用率？最佳答案在官方Kubernetes documenta
kubernetes - kubernetes 命名空间中部署定义的唯一性
我们有多个环境，如 dev、qa、prepod 等。我们有基于环境的命名空间。现在我们将服务命名为 environment 作为后缀。例如。， apiVersion: apps/v1
kubernetes - Kubernetes 中命名空间的使用
我有一个关于命名空间的问题，并寻求您的专业知识来消除我的疑虑。我对命名空间的理解是，它们用于在团队和项目之间引入逻辑边界。当然，我在某处读到命名空间可用于在同一集群中引入/定义不同的环境。例如测
kubernetes - Kubernetes 中用户或角色的命名空间
我知道角色用于授予用户或服务帐户在特定命名空间中执行操作的权限。一个典型的角色定义可能是这样的 kind: Role apiVersion: rbac.authorization.k8s.io/v1
kubernetes - Kubernetes 中的服务位于何处？
我正在学习 Kubernetes，目前正在深入研究高可用性，虽然我知道我可以使用本地(或远程)etcd 以及一组高可用性的控制平面(API 服务器、 Controller 、调度程序)来设置minio
kubernetes - Kubernetes 中的服务帐户和上下文有什么区别？
两者之间有什么实际区别？我什么时候应该选择一个？例如，如果我想让我的项目中的开发人员仅查看 pod 的日志。似乎可以通过 RoleBinding 为服务帐户或上下文分配这些权限。最佳答案什么是服
kubernetes - Kubernetes 上基于时间的容器调度？
根据基于时间的计划执行容器或 Pod 的推荐方法是什么？例如，每天凌晨 2 点运行 10 分钟的任务。在传统的 linux 服务器上，crontab 很容易工作，而且显然在容器内部仍然是可能的。然而
kubernetes - kubernetes 中的入口和服务网格有什么区别？
有人可以帮助我了解服务网格本身是否是一种入口，或者服务网格和入口之间是否有任何区别？最佳答案 “入口”负责将流量路由到集群中(来自 Docs:管理对集群中服务的外部访问的 API 对象，通常是 HT
kubernetes - Kubernetes 中的多个集群
我是 kubernetes 集群的新手。我有一个简单的问题。我在多个 kubernetes 集群中。 kubernetes 中似乎有多个集群可用。所以 kubernetes 中的“多集群”意味着:
kubernetes - Kubernetes-滚动更新可以杀死旧的pod而不产生新的pod
我目前正在使用Deployments管理我的K8S集群中的Pod。我的某些部署需要2个Pod /副本，一些部署需要3个Pod /副本，而有些部署只需要1个Pod /副本。我遇到的问题是只有一个 po
kubernetes - Kubernetes 的连接服务是什么？
我看过官方文档:https://kubernetes.io/docs/tasks/setup-konnectivity/setup-konnectivity/但我还是没明白它的意思。我有几个问题:
kubernetes - Kubernetes 上的批处理
这里的任何人都有在 kubernetes 上进行批处理(例如 spring 批处理)的经验？这是个好主意吗？如果我们使用 kubernetes 自动缩放功能，如何防止批处理处理相同的数据？谢谢你。最
kubernetes - 避免 kubernetes 调度程序在 kubernetes 集群的单个节点中运行所有 pod
我有一个具有 4 个节点和一个主节点的 Kubernetes 集群。我正在尝试在所有节点中运行 5 个 nginx pod。目前，调度程序有时在一台机器上运行所有 pod，有时在不同的机器上运行。如
kubernetes - 如何安装特定版本的 Kubernetes？
我在运行 Raspbian Stretch 的 Raspberry PI 3 上使用以下命令安装最新版本的 Kubernetes。 $ curl -s https://packages.cloud.g
kubernetes - Kubernetes 中容器端口和目标端口的区别？
container port 与 Kubernetes 容器中的 targetports 有何不同？它们是否可以互换使用，如果可以，为什么？我遇到了下面的代码片段，其中 containerPort

首页

博学

6Ren·AI

商城