gpt4 book ai didi

kubernetes - GKE:Kubernetes Master/kubectl在节点规模期间无响应

转载 作者:行者123 更新时间:2023-12-02 11:56:43 25 4
gpt4 key购买 nike

给定的是一个集群,而不是静态工作负载,这些工作负载已部署到一个固定大小的节点池(默认)。额外的节点池可容纳 flex 工作负载,池大小在0-〜10个实例之间变化。 在扩展期间,大多数情况下集群没有响应:

  • 我无法访问GKE上的某些集群页面,例如工作负载(抱歉,德语界面)
    /image/MSd3Y.png
  • kubectl无法连接,现有连接(例如端口转发)和get pods -w将断开连接:
  • E0828 12:36:14.495621 10818 portforward.go:233] lost connection to pod
  • The connection to the server 35.205.157.182 was refused - did you specify the right host or port?
  • 另外,我认为诸如prom-operator之类的依赖工具也会遇到问题,因为在此期间,诸如kube_pod_container_info之类的一些非常默认的参数会丢失数据

  • 我到目前为止所做的尝试是,正在从区域群集切换到区域群集(无单节点主服务器?),但这没有帮助。同样,该问题并非在节点池的每个规模上都发生,而是在大多数情况下。

    所以我的问题是-如何调试/修复该问题?

    最佳答案

    这是预期的行为。

    创建集群时,将根据nodepool大小选择用于主服务器的计算机,然后当autoscaler创建更多nodes时,将更改主服务器的计算机类型,以能够处理新的节点数。

    在主服务器期间将其更新为新的计算机类型,您将失去与API的连接并收到报告的消息,而且由于与API的通信中断,您无法在云控制台中可视化与群集相关的任何信息,因为所附图片显示。

    您可以尝试避免在创建时更改最小节点数,例如,您提到使用的限制为0和10,因此在创建群集时,可以使用中间点5,该中间点可能支持最大数量的节点。节点,以防工作量需要它们。

    关于kubernetes - GKE:Kubernetes Master/kubectl在节点规模期间无响应,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57692977/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com