kubernetes - kube-dns 不断在 coreos 上使用 kubernetes 重新启动-6ren

kubernetes - kube-dns 不断在 coreos 上使用 kubernetes 重新启动

转载作者：行者123 更新时间：2023-12-03 16:46:50

我通过 CoreOS alpha (1353.1.0) 在 Container Linux 上安装了 Kubernetes
使用 hyperkube v1.5.5_coreos.0 使用我的 coreos-kubernetes 在 https://github.com/kfirufk/coreos-kubernetes 安装脚本的分支。
我有两台 ContainerOS 机器。

coreos-2.tux-in.com 解析为 192.168.1.2 作为 Controller

coreos-3.tux-in.com 解析为 192.168.1.3 作为 worker

kubectl get pods --all-namespaces 返回

NAMESPACE       NAME                                       READY     STATUS    RESTARTS   AGE
ceph            ceph-mds-2743106415-rkww4                  0/1       Pending   0          1d
ceph            ceph-mon-check-3856521781-bd6k5            1/1       Running   0          1d
kube-lego       kube-lego-3323932148-g2tf4                 1/1       Running   0          1d
kube-system     calico-node-xq6j7                          2/2       Running   0          1d
kube-system     calico-node-xzpp2                          2/2       Running   4560       1d
kube-system     calico-policy-controller-610849172-b7xjr   1/1       Running   0          1d
kube-system     heapster-v1.3.0-beta.0-2754576759-v1f50    2/2       Running   0          1d
kube-system     kube-apiserver-192.168.1.2                 1/1       Running   0          1d
kube-system     kube-controller-manager-192.168.1.2        1/1       Running   1          1d
kube-system     kube-dns-3675956729-r7hhf                  3/4       Running   3924       1d
kube-system     kube-dns-autoscaler-505723555-l2pph        1/1       Running   0          1d
kube-system     kube-proxy-192.168.1.2                     1/1       Running   0          1d
kube-system     kube-proxy-192.168.1.3                     1/1       Running   0          1d
kube-system     kube-scheduler-192.168.1.2                 1/1       Running   1          1d
kube-system     kubernetes-dashboard-3697905830-vdz23      1/1       Running   1246       1d
kube-system     monitoring-grafana-4013973156-m2r2v        1/1       Running   0          1d
kube-system     monitoring-influxdb-651061958-2mdtf        1/1       Running   0          1d
nginx-ingress   default-http-backend-150165654-s4z04       1/1       Running   2          1d

所以我可以看到 kube-dns-782804071-h78rf 不断重启。 kubectl describe pod kube-dns-3675956729-r7hhf --namespace=kube-system 返回:

Name:       kube-dns-3675956729-r7hhf
Namespace:  kube-system
Node:       192.168.1.2/192.168.1.2
Start Time: Sat, 11 Mar 2017 17:54:14 +0000
Labels:     k8s-app=kube-dns
        pod-template-hash=3675956729
Status:     Running
IP:     10.2.67.243
Controllers:    ReplicaSet/kube-dns-3675956729
Containers:
  kubedns:
    Container ID:   rkt://f6480fe7-4316-4e0e-9483-0944feb85ea3:kubedns
    Image:      gcr.io/google_containers/kubedns-amd64:1.9
    Image ID:       rkt://sha512-c7b7c9c4393bea5f9dc5bcbe1acf1036c2aca36ac14b5e17fd3c675a396c4219
    Ports:      10053/UDP, 10053/TCP, 10055/TCP
    Args:
      --domain=cluster.local.
      --dns-port=10053
      --config-map=kube-dns
      --v=2
    Limits:
      memory:   170Mi
    Requests:
      cpu:      100m
      memory:       70Mi
    State:      Running
      Started:      Sun, 12 Mar 2017 17:47:41 +0000
    Last State:     Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Sun, 12 Mar 2017 17:46:28 +0000
      Finished:     Sun, 12 Mar 2017 17:47:02 +0000
    Ready:      False
    Restart Count:  981
    Liveness:       http-get http://:8080/healthz-kubedns delay=60s timeout=5s period=10s #success=1 #failure=5
    Readiness:      http-get http://:8081/readiness delay=3s timeout=5s period=10s #success=1 #failure=3
    Volume Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-zqbdp (ro)
    Environment Variables:
      PROMETHEUS_PORT:  10055
  dnsmasq:
    Container ID:   rkt://f6480fe7-4316-4e0e-9483-0944feb85ea3:dnsmasq
    Image:      gcr.io/google_containers/kube-dnsmasq-amd64:1.4.1
    Image ID:       rkt://sha512-8c5f8b40f6813bb676ce04cd545c55add0dc8af5a3be642320244b74ea03f872
    Ports:      53/UDP, 53/TCP
    Args:
      --cache-size=1000
      --no-resolv
      --server=127.0.0.1#10053
      --log-facility=-
    Requests:
      cpu:      150m
      memory:       10Mi
    State:      Running
      Started:      Sun, 12 Mar 2017 17:47:41 +0000
    Last State:     Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Sun, 12 Mar 2017 17:46:28 +0000
      Finished:     Sun, 12 Mar 2017 17:47:02 +0000
    Ready:      True
    Restart Count:  981
    Liveness:       http-get http://:8080/healthz-dnsmasq delay=60s timeout=5s period=10s #success=1 #failure=5
    Volume Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-zqbdp (ro)
    Environment Variables:  <none>
  dnsmasq-metrics:
    Container ID:   rkt://f6480fe7-4316-4e0e-9483-0944feb85ea3:dnsmasq-metrics
    Image:      gcr.io/google_containers/dnsmasq-metrics-amd64:1.0.1
    Image ID:       rkt://sha512-ceb3b6af1cd67389358be14af36b5e8fb6925e78ca137b28b93e0d8af134585b
    Port:       10054/TCP
    Args:
      --v=2
      --logtostderr
    Requests:
      memory:       10Mi
    State:      Running
      Started:      Sun, 12 Mar 2017 17:47:41 +0000
    Last State:     Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Sun, 12 Mar 2017 17:46:28 +0000
      Finished:     Sun, 12 Mar 2017 17:47:02 +0000
    Ready:      True
    Restart Count:  981
    Liveness:       http-get http://:10054/metrics delay=60s timeout=5s period=10s #success=1 #failure=5
    Volume Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-zqbdp (ro)
    Environment Variables:  <none>
  healthz:
    Container ID:   rkt://f6480fe7-4316-4e0e-9483-0944feb85ea3:healthz
    Image:      gcr.io/google_containers/exechealthz-amd64:v1.2.0
    Image ID:       rkt://sha512-3a85b0533dfba81b5083a93c7e091377123dac0942f46883a4c10c25cf0ad177
    Port:       8080/TCP
    Args:
      --cmd=nslookup kubernetes.default.svc.cluster.local 127.0.0.1 >/dev/null
      --url=/healthz-dnsmasq
      --cmd=nslookup kubernetes.default.svc.cluster.local 127.0.0.1:10053 >/dev/null
      --url=/healthz-kubedns
      --port=8080
      --quiet
    Limits:
      memory:   50Mi
    Requests:
      cpu:      10m
      memory:       50Mi
    State:      Running
      Started:      Sun, 12 Mar 2017 17:47:41 +0000
    Last State:     Terminated
      Reason:       Completed
      Exit Code:    0
      Started:      Sun, 12 Mar 2017 17:46:28 +0000
      Finished:     Sun, 12 Mar 2017 17:47:02 +0000
    Ready:      True
    Restart Count:  981
    Volume Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-zqbdp (ro)
    Environment Variables:  <none>
Conditions:
  Type      Status
  Initialized   True 
  Ready     False 
  PodScheduled  True 
Volumes:
  default-token-zqbdp:
    Type:   Secret (a volume populated by a Secret)
    SecretName: default-token-zqbdp
QoS Class:  Burstable
Tolerations:    CriticalAddonsOnly=:Exists
No events.

这表明 kubedns-amd64:1.9 在 Ready: false 中
这是我的 kude-dns-de.yaml 文件:

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: kube-dns
  namespace: kube-system
  labels:
    k8s-app: kube-dns
    kubernetes.io/cluster-service: "true"
spec:
  strategy:
    rollingUpdate:
      maxSurge: 10%
      maxUnavailable: 0
  selector:
    matchLabels:
      k8s-app: kube-dns
  template:
    metadata:
      labels:
        k8s-app: kube-dns
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
        scheduler.alpha.kubernetes.io/tolerations: '[{"key":"CriticalAddonsOnly", "operator":"Exists"}]'
    spec:
      containers:
      - name: kubedns
        image: gcr.io/google_containers/kubedns-amd64:1.9
        resources:
          limits:
            memory: 170Mi
          requests:
            cpu: 100m
            memory: 70Mi
        livenessProbe:
          httpGet:
            path: /healthz-kubedns
            port: 8080
            scheme: HTTP
          initialDelaySeconds: 60
          timeoutSeconds: 5
          successThreshold: 1
          failureThreshold: 5
        readinessProbe:
          httpGet:
            path: /readiness
            port: 8081
            scheme: HTTP
          initialDelaySeconds: 3
          timeoutSeconds: 5
        args:
        - --domain=cluster.local.
        - --dns-port=10053
        - --config-map=kube-dns
        # This should be set to v=2 only after the new image (cut from 1.5) has
        # been released, otherwise we will flood the logs.
        - --v=2
        env:
        - name: PROMETHEUS_PORT
          value: "10055"
        ports:
        - containerPort: 10053
          name: dns-local
          protocol: UDP
        - containerPort: 10053
          name: dns-tcp-local
          protocol: TCP
        - containerPort: 10055
          name: metrics
          protocol: TCP
      - name: dnsmasq
        image: gcr.io/google_containers/kube-dnsmasq-amd64:1.4.1
        livenessProbe:
          httpGet:
            path: /healthz-dnsmasq
            port: 8080
            scheme: HTTP
          initialDelaySeconds: 60
          timeoutSeconds: 5
          successThreshold: 1
          failureThreshold: 5
        args:
        - --cache-size=1000
        - --no-resolv
        - --server=127.0.0.1#10053
        - --log-facility=-
        ports:
        - containerPort: 53
          name: dns
          protocol: UDP
        - containerPort: 53
          name: dns-tcp
          protocol: TCP
        # see: https://github.com/kubernetes/kubernetes/issues/29055 for details
        resources:
          requests:
            cpu: 150m
            memory: 10Mi
      - name: dnsmasq-metrics
        image: gcr.io/google_containers/dnsmasq-metrics-amd64:1.0.1
        livenessProbe:
          httpGet:
            path: /metrics
            port: 10054
            scheme: HTTP
          initialDelaySeconds: 60
          timeoutSeconds: 5
          successThreshold: 1
          failureThreshold: 5
        args:
        - --v=2
        - --logtostderr
        ports:
        - containerPort: 10054
          name: metrics
          protocol: TCP
        resources:
          requests:
            memory: 10Mi
      - name: healthz
        image: gcr.io/google_containers/exechealthz-amd64:v1.2.0
        resources:
          limits:
            memory: 50Mi
          requests:
            cpu: 10m
            memory: 50Mi
        args:
        - --cmd=nslookup kubernetes.default.svc.cluster.local 127.0.0.1 >/dev/null
        - --url=/healthz-dnsmasq
        - --cmd=nslookup kubernetes.default.svc.cluster.local 127.0.0.1:10053 >/dev/null
        - --url=/healthz-kubedns
        - --port=8080
        - --quiet
        ports:
        - containerPort: 8080
          protocol: TCP
      dnsPolicy: Default

这是我的 kube-dns-svc.yaml :

apiVersion: v1
kind: Service
metadata:
  name: kube-dns
  namespace: kube-system
  labels:
    k8s-app: kube-dns
    kubernetes.io/cluster-service: "true"
    kubernetes.io/name: "KubeDNS"
spec:
  selector:
    k8s-app: kube-dns
  clusterIP: 10.3.0.10
  ports:
  - name: dns
    port: 53
    protocol: UDP
  - name: dns-tcp
    port: 53
    protocol: TCP

任何有关该问题的信息将不胜感激!
更新 rkt list --full 2> /dev/null | grep kubedns 显示:

744a4579-0849-4fae-b1f5-cb05d40f3734    kubedns             gcr.io/google_containers/kubedns-amd64:1.9      sha512-c7b7c9c4393b running 2017-03-22 22:14:55.801 +0000 UTC   2017-03-22 22:14:56.814 +0000 UTC

journalctl -m _MACHINE_ID=744a45790849b1f5cb05d40f3734 提供:

Mar 22 22:17:58 kube-dns-3675956729-sthcv kubedns[8]: E0322 22:17:58.619254       8 reflector.go:199] pkg/dns/dns.go:145: Failed to list *api.Endpoints: Get https://10.3.0.1:443/api/v1/endpoints?resourceVersion=0: dial tcp 10.3.0.1:443: connect: network is unreachable

我试图将 - --proxy-mode=userspace 添加到 /etc/kubernetes/manifests/kube-proxy.yaml 但结果是一样的。 kubectl get svc --all-namespaces 提供:

NAMESPACE       NAME                   CLUSTER-IP   EXTERNAL-IP   PORT(S)         AGE
ceph            ceph-mon               None         <none>        6789/TCP        1h
default         kubernetes             10.3.0.1     <none>        443/TCP         1h
kube-system     heapster               10.3.0.2     <none>        80/TCP          1h
kube-system     kube-dns               10.3.0.10    <none>        53/UDP,53/TCP   1h
kube-system     kubernetes-dashboard   10.3.0.116   <none>        80/TCP          1h
kube-system     monitoring-grafana     10.3.0.187   <none>        80/TCP          1h
kube-system     monitoring-influxdb    10.3.0.214   <none>        8086/TCP        1h
nginx-ingress   default-http-backend   10.3.0.233   <none>        80/TCP          1h

kubectl get cs 提供:

NAME                 STATUS    MESSAGE              ERROR
controller-manager   Healthy   ok
scheduler            Healthy   ok
etcd-0               Healthy   {"health": "true"}

我的 kube-proxy.yaml 有以下内容:

apiVersion: v1
kind: Pod
metadata:
  name: kube-proxy
  namespace: kube-system
  annotations:
    rkt.alpha.kubernetes.io/stage1-name-override: coreos.com/rkt/stage1-fly
spec:
  hostNetwork: true
  containers:
  - name: kube-proxy
    image: quay.io/coreos/hyperkube:v1.5.5_coreos.0
    command:
    - /hyperkube
    - proxy
    - --cluster-cidr=10.2.0.0/16
    - --kubeconfig=/etc/kubernetes/controller-kubeconfig.yaml
    securityContext:
      privileged: true
    volumeMounts:
    - mountPath: /etc/ssl/certs
      name: "ssl-certs"
    - mountPath: /etc/kubernetes/controller-kubeconfig.yaml
      name: "kubeconfig"
      readOnly: true
    - mountPath: /etc/kubernetes/ssl
      name: "etc-kube-ssl"
      readOnly: true
    - mountPath: /var/run/dbus
      name: dbus
      readOnly: false
  volumes:
  - hostPath:
      path: "/usr/share/ca-certificates"
    name: "ssl-certs"
  - hostPath:
      path: "/etc/kubernetes/controller-kubeconfig.yaml"
    name: "kubeconfig"
  - hostPath:
      path: "/etc/kubernetes/ssl"
    name: "etc-kube-ssl"
  - hostPath:
      path: /var/run/dbus
    name: dbus

这是我能找到的所有有值(value)的信息。有任何想法吗？ :)
更新 2
http://pastebin.com/2GApCj0n Controller ContainerOS 上的 iptables-save 输出
更新 3
我在 Controller 节点上运行 curl

# curl https://10.3.0.1 --insecure
Unauthorized

意味着它可以正确访问它，我没有添加足够的参数来授权它吗？
更新 4
感谢 @jaxxstorm，我删除了 calico manifests，更新了他们的 quay/cni 和 quay/node 版本并重新安装了它们。
现在 kubedns 不断重启，但我认为现在 calico 可以工作了。因为它第一次尝试在工作节点而不是 Controller 节点上安装 kubedns，而且当我对 kubedns pod 进行 rkt enter 并尝试 wget https://10.3.0.1 时，我得到:

# wget https://10.3.0.1
Connecting to 10.3.0.1 (10.3.0.1:443)
wget: can't execute 'ssl_helper': No such file or directory
wget: error getting response: Connection reset by peer

这清楚地表明有某种 react 。哪个好？
现在 kubectl get pods --all-namespaces 显示:

kube-system     kube-dns-3675956729-ljz2w                  4/4       Running             88         42m

所以.. 4/4 准备好了，但它一直在重新启动。
http://pastebin.com/Z70U331G 的 kubectl describe pod kube-dns-3675956729-ljz2w --namespace=kube-system 输出
所以它无法连接到 http://10.2.47.19:8081/readiness ，我猜这是 kubedns 的 IP，因为它使用端口 8081。不知道如何继续进一步调查这个问题。
感谢一切!

最佳答案

kube-dns 有一个就绪探针，它尝试通过 kube-dns 的服务 IP 进行解析。您的服务网络可能有问题吗？

在此处查看答案和解决方案:
kubernetes service IPs not reachable

关于kubernetes - kube-dns 不断在 coreos 上使用 kubernetes 重新启动，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42637493/

文章推荐： r-markdown - 使用 Markdown 更改项目符号样式

文章推荐： android - Android App在长时间闲置时不断崩溃(API 24和23)

文章推荐： javascript - Lodash Debounce Vue Js 与 Buefy 自动完成

文章推荐： sql-server - 如何以特定格式创建唯一的序列号字符串？

android - 在 Flash AS3 中使用 Adobe Air 重新启动/重新启动 android 应用程序
我搜索了重启我的 android 应用程序的替代方法，但我发现重启的唯一方法是使用 Flex 构建. 我可以用 as3 flash 重启我的 android adobe air 应用程序吗？我该怎么做
Python程序不循环/重新启动
我有一个学校评估，是为了制作一个 child 的拼写游戏，当玩家单击"is"时，它必须循环/重新启动。到目前为止，当我测试游戏时，询问玩家是否想再次玩的选项/easygui.buttonbox 以
docker - 重新启动:始终强制重新创建
在.yml文件中，我定义了:restart: always。是否可以将此重启创建为--force-recreate标志的等效项？我的XVFB有问题，标准重启无法解决问题，但通过--force-rec
java - 重新启动 while 循环
我正在尝试重新启动 while 循环。我已经声明了 boolean 类型的变量 keepGoing 。如果 int 变量 x 超出窗口，则 keepGoing 更改为 false。然后reset()方
java - 重新启动 Chromecast
如何使用 Cast SDK 或其他方式让我的应用以官方 Chromecast 应用的方式触发 Chromecast 重启？如果是“否则”，Google Play 可能会对这种做法不友善吗？最佳答案
postgresql - 重新启动 postgres
运行/etc/init.d/postgresql restart有没有危险？我们刚刚发生了一些关系“消失”的事件，我运行了上述命令。刚刚被系统管理员骂了一顿，但是他没有解释为什么这是一件坏事。我确实将
php - 重新启动 While 循环
是否可以重新启动 while 循环？我目前在 foreach 循环中存在一个 while 循环，并且每次都需要 while 语句从头开始。 $sql = mysqli_query($link, "SE
iphone - NSTimer 重新启动
我有如下倒计时器: - (void)updateCounterLabel:(NSTimer *)theTimer { if(secondsLeft > 0 ){ secondsLeft
python - 重新启动 if then 语句
就像我在 python 中一样。 choice1 = raw_input('John Blue Green') if choice1 == 'A': print('blah') elif cho
python - 重新启动 Pygame？
我的游戏在 True 循环中运行一段时间，我希望能够要求用户“再玩一次？”我已经有了用于弹出文本的矩形的代码，但我需要一种方法让用户单击矩形或按 y 表示是，然后代码再次自行运行。最佳答案在您的主
linux - 重新启动 Nginx
我是 nginx 的初学者。我正在使用 Ubuntu 16.04。我按照步骤操作， sudo apt-get 更新。 sudo apt-get install nginx sudo apt-get 升
javascript - 重新启动/重置并重播过渡CSS？
我需要使用 javascript 重放一个 css 转换。当我重置我的 div 的 css 样式并应用新的过渡时，没有任何反应...... 我认为这两个代码是在同一个执行框架中执行的，并且通过优化，它
c# 重新启动 for 循环
所以我有这几行代码: string[] newData = File.ReadAllLines(fileName) int length = newData.Length; for (int i =
javascript - 重新启动 setInterval
所以我有一个计时器，每 5 秒旋转一组图像。因此，我在文档启动时运行它。 $(document).ready(function() { var intervalID=setInterval(funct
linux - 重新启动 Apache 服务器的问题
好吧，我在重新启动 Apache 服务器时遇到了一些问题。我修改了服务器上的 ulimit 但我无法重新启动 httpd；我在 CentOS 5.8 x64 上运行服务器. httpd -V 的输出
docker - 重新启动 docker 服务会杀死所有容器吗？
我在使用 docker 时遇到问题 docker ps不会返回并被卡住。我发现做 docker service restart 之类的sudo service docker restart (htt
wpf - 重新启动 WPF Storyboard
从 .net 代码停止和重新启动 Storyboard的正确方法是什么？我想 ... myStory.Stop(this); 期望随后调用 .Begin(this);将从零开始从时间线重新开始，但
apache - 重新启动(启动)apache网络服务器时我可以执行shell脚本吗
我有一个带有一些缓存后端的应用程序，我想在重新启动网络服务器时清除缓存。在网络服务器(重新)启动时是否有 apache 配置指令或任何其他方式来执行 shell 脚本？谢谢，菲尔正如一些答案已
java - 重新启动 Swing 应用程序
我愿意在我的应用程序中添加一个按钮，单击该按钮将重新启动应用程序。我搜索了谷歌，但发现除了 this one 没有任何帮助.但是这里遵循的程序违反了 Java 的 WORA 概念。是否还有其他以 J
coldfusion - 重新启动 ColdFusion 邮件队列
我们目前遇到间歇性邮件队列中断。我是 seeking diagnostic help in another area . 同时，有没有办法在不重启整个服务的情况下重启CF邮件队列？ CF8标准 Win

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

kubernetes - kube-dns 不断在 coreos 上使用 kubernetes 重新启动