gpt4 book ai didi

kubernetes - 如何以对GKE Kubernetes Master中断有弹性的方式使用Python Kubernetes客户端?

转载 作者:行者123 更新时间:2023-12-02 12:20:48 25 4
gpt4 key购买 nike

有时我们会使用Official Python client library for kubernetes使用Python脚本来启动和监视在Google Kubernetes Engine上运行的Kubernetes Pod。我们还在几个节点池上启用自动缩放。

根据this的说法,“Master VM将自动缩放,升级,备份和保护”。该帖子似乎还表明,当节点数从0-5增加到6+时,控制平面/主VM会发生一些自动缩放,而在其他时候,如果添加更多节点,则可能会自动缩放。

当启动了许多节点时,似乎控制平面可能会在这种情况下崩溃。发生这种情况时,我们的通过控制平面监视pod的Python脚本经常崩溃,似乎无法找到触发以下某些异常的KubeApi / Control Plane端点:

ApiException, urllib3.exceptions.NewConnectionError, urllib3.exceptions.MaxRetryError.



处理这种情况的最佳方法是什么?自动缩放事件是否有任何有用的属性?

为了阐明我们对Python客户端的处理方式,我们每隔几分钟就会通过 read_namespaced_pod循环读取感兴趣的容器的状态,并捕获类似于 provided example的异常(此外,我们还尝试了捕获底层的urllib调用)。我们还添加了具有指数退避功能的重试功能,但是在指定的最大重试次数后,即使该次数很高(例如,保持重试时间超过5分钟),事情也无法恢复并失败。

我们尚未尝试的一件事是在每次重试时都重新创建 kubernetes.client.CoreV1Api对象。那会有很大的不同吗?

最佳答案

当节点池大小更改时,根据大小,这可以启动主服务器大小的更改。这是nodepool sizes mapped with the master sizes。如果节点池大小需要更大的主机,则在GCP上启动主机的自动缩放。在此过程中,主机将在大约1-5分钟内不可用。请注意,这些事件在Stackdriver Logging中不可用。

此时,对主服务器的所有API调用都会失败,包括来自Python API客户端和kubectl的调用。但是,在1-5分钟后,主服务器应该可用,并且来自客户端和kubectl的 call 都应该工作。我可以通过将群集从3个节点扩展到20个节点进行测试,并在1-5分钟内无法使用主服务器。
我从Python API客户端获得了以下错误:

Max retries exceeded with url: /api/v1/pods?watch=False (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at>: Failed to establish a new connection: [Errno 111] Connection refused',)) 

使用kubectl,我有:
“Unable to connect to the server: dial tcp” 

1-5分钟后,主设备可用, call 成功。无需重新创建 kubernetes.client.CoreV1Api 对象,因为这只是一个API端点。

根据您的描述,您的母版在5分钟后无法访问,这表明您的母版或Python脚本设置存在潜在问题。要在运行Python脚本时进一步进行故障排除,您可以通过运行任何kubectl命令来检查master的可用性。

关于kubernetes - 如何以对GKE Kubernetes Master中断有弹性的方式使用Python Kubernetes客户端?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50480247/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com