kubernetes - GKE Kubernetes Autoscaler - 最大集群 cpu，达到内存限制-6ren

kubernetes - GKE Kubernetes Autoscaler - 最大集群 cpu，达到内存限制

转载作者：行者123 更新时间：2023-12-02 11:29:19

43

4

GKE Autoscaler 不会在 15 个节点之后扩展节点(以前的限制)

我已将 Cluster 中的 Min 和 Max 值更改为 17-25

然而，节点数停留在 14-15 并且没有增加，现在我的集群已满，没有更多的 pod 可以容纳，所以每个新部署都应该触发节点扩展并将自己安排到新节点上，这不是发生。

当我创建部署时，它卡在 Pending 状态并显示一条消息:

pod didn't trigger scale-up (it wouldn't fit if a new node is added): 1 max cluster cpu, memory limit reached

最大集群 cpu，达到内存限制听起来最大节点数仍然是 14-15，这怎么可能？为什么它不会触发节点扩展？

ClusterAutoscaler 状态:

apiVersion: v1
data:
  status: |+
    Cluster-autoscaler status at 2020-03-10 10:35:39.899329642 +0000 UTC:
    Cluster-wide:
      Health:      Healthy (ready=14 unready=0 notStarted=0 longNotStarted=0 registered=14 longUnregistered=0)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:49:11.965623459 +0000 UTC m=+4133.007827509
      ScaleUp:     NoActivity (ready=14 registered=14)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 08:40:47.775200087 +0000 UTC m=+28.817404126
      ScaleDown:   NoCandidates (candidates=0)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:49:49.580623718 +0000 UTC m=+4170.622827779

    NodeGroups:
      Name:        https://content.googleapis.com/compute/v1/projects/project/zones/europe-west4-b/instanceGroups/adjust-scope-bff43e09-grp
      Health:      Healthy (ready=14 unready=0 notStarted=0 longNotStarted=0 registered=14 longUnregistered=0 cloudProviderTarget=14 (minSize=17, maxSize=25))
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:46:19.45614781 +0000 UTC m=+3960.498351857
      ScaleUp:     NoActivity (ready=14 cloudProviderTarget=14)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:46:19.45614781 +0000 UTC m=+3960.498351857
      ScaleDown:   NoCandidates (candidates=0)
                   LastProbeTime:      2020-03-10 10:35:39.608193389 +0000 UTC m=+6920.650397445
                   LastTransitionTime: 2020-03-10 09:49:49.580623718 +0000 UTC m=+4170.622827779

部署非常小! (200m CPU，256Mi mem)所以如果添加新节点肯定会适合。

看起来像 nodepool/autoscaler 中的一个错误，因为 15 是我以前的节点数限制，不知何故，它看起来仍然是 15 是最高的。

编辑:
具有更大机器的新节点池，GKE 中的自动缩放已打开，一段时间后仍然存在相同的问题，即使节点具有免费资源。
来自节点的顶部:

NAME                                                  CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%   
gke-infrastructure-n-autoscaled-node--0816b9c6-fm5v   805m         41%    4966Mi          88%       
gke-infrastructure-n-autoscaled-node--0816b9c6-h98f   407m         21%    2746Mi          48%       
gke-infrastructure-n-autoscaled-node--0816b9c6-hr0l   721m         37%    3832Mi          67%       
gke-infrastructure-n-autoscaled-node--0816b9c6-prfw   1020m        52%    5102Mi          90%       
gke-infrastructure-n-autoscaled-node--0816b9c6-s94x   946m         49%    3637Mi          64%       
gke-infrastructure-n-autoscaled-node--0816b9c6-sz5l   2000m        103%   5738Mi          101%      
gke-infrastructure-n-autoscaled-node--0816b9c6-z6dv   664m         34%    4271Mi          75%       
gke-infrastructure-n-autoscaled-node--0816b9c6-zvbr   970m         50%    3061Mi          54%

然而仍然是消息 1 max cluster cpu, memory limit reached 。更新部署时仍然会发生这种情况，新版本有时会卡在 Pending 中，因为它不会触发扩展。

EDIT2:
在使用 cloud 命令描述集群时，我发现了这一点:

autoscaling:
  autoprovisioningNodePoolDefaults:
    oauthScopes:
    - https://www.googleapis.com/auth/logging.write
    - https://www.googleapis.com/auth/monitoring
    serviceAccount: default
  enableNodeAutoprovisioning: true
  resourceLimits:
  - maximum: '5'
    minimum: '1'
    resourceType: cpu
  - maximum: '5'
    minimum: '1'
    resourceType: memory

这如何在启用自动缩放的情况下工作？如果达到这些，它不会触发放大？ (总和已经超过了)

最佳答案

我遇到了同样的问题，正用头撞墙试图弄清楚发生了什么。连支持也搞不清楚。
问题是，如果您在集群级别启用节点自动配置，您正在设置整个集群允许的实际最小/最大 cpu 和内存。乍一看，用户界面似乎在建议每个自动配置的节点所需的最小/最大 cpu 和内存 - 但这是不正确的。因此，例如，如果您想要最多 100 个节点，每个节点有 8 个 CPU，那么您的最大 CPU 应该是 800。我知道集群的最大值显然很有用，因此事情不会失控，但它的方式是呈现的不直观。由于您实际上无法控制为您的机器类型选择什么，您不认为不让 kubernetes 为 1 核任务选择 100 核机器会很有用吗？这就是我在配置它时认为它在问什么。
节点自动配置很有用，因为如果由于某种原因您在自己的节点池上进行了自动配置，有时由于配额问题无法满足您的需求，那么集群级别的节点自动配置器会找出不同的节点池它可以配置以满足您的需求的机器类型。在我的场景中，我使用的是 C2 CPU，并且该地区缺少这些 CPU，因此我的节点池停止了自动缩放。
更令人困惑的是，大多数人从指定他们的节点池机器类型开始，因此他们已经习惯于在每个节点的基础上自定义这些限制。但是随后某些事情停止工作，例如您不知道的配额问题，因此您绝望并在集群级别配置节点自动配置程序，但随后完全搞砸了，因为您认为您正在为新的潜在机器类型指定限制。
希望这有助于澄清一些事情。

关于kubernetes - GKE Kubernetes Autoscaler - 最大集群 cpu，达到内存限制，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60615873/

43

4

0

文章推荐： kubernetes - 如何在 K8s 中启用 Feature Gates？

文章推荐： kubernetes - 节点资源不足:临时存储

文章推荐： kubernetes - 连接拒绝到 Kubernetes 中的 GCP LoadBalancer

文章推荐： kubernetes - Kubernetes 作业完成后删除 Pod 的最佳方法是什么

达到 RStudio 最大文件大小
我已经下载了 RStudio，在打开我的代码所在的文件时，我似乎已经达到了容量限制: The file is 2.3MB the maximum file size is 2MB The file i
javascript - 达到 IF 条件后停止函数
我有一个按钮，每次单击时，都会将 1 添加到变量中。当此变量超过 5 时，将触发警报。然而，此后触发器仍不断激活。我尝试使用 == 而不是 > 进行检查，但它做同样的事情。有什么想法吗？ http:/
scala - 达到 float 的队列时该怎么办？
我正在将Slick 3.0与HikariCP 2.3.8一起使用(也可以玩2.4) 我做了很多数据库IO，并且不断达到队列限制。有没有一种方法可以获取当前的队列大小，以及如何增加队列大小？还是建议
email - 达到 Salesforce 每日电子邮件限制后会发生什么？
在 Salesforce 中，您可以设置各种工作流程或构建用于发送电子邮件的 API 应用程序。对于大多数标准 Salesforce 组织，每天有 1000 封电子邮件的限制。 (例如，参见 here
c# - 达到 DateTime 后执行方法的最有效方法
我有一个类是这样的: public sealed class Contract { public bool isExpired { get; set; } public DateTim
javascript - 达到 maxlength 后如何限制输入的字符？
我有一个带有特殊符号按钮的输入作为附加组件。 HTML
Java 达到 >50% 的压缩率
我正在尝试压缩 pdf 文件(有时是图像)。我需要一个 java 压缩器来帮助我压缩文件。我需要尺寸小于原始文档尺寸的一半。我尝试了java api中给出的deflator。但它并不是很成功。请帮我解
javascript - 达到 100% 不透明度后删除可见类
我正在使用这条线来创建淡入效果。 $('#div').css({opacity: 0, visibility:"visible"}).animate({opacity: 1}, 500); 可见类达到
ios - 达到 URLCache 限制时会发生什么
我使用 URLCache 来缓存请求响应，最大容量如下: let diskCapacity = 100 * 1024 * 1024 let memoryCapacity = 100
javascript - 达到 60 秒时休息倒计时功能
我有一个计数器函数，我从这个 Answer 得到它: function countDown(i) { var int = setInterval(function () {
c++ - 达到 int_max 之前的迭代次数
下面是一段代码，用于检查给定数字是否为 Lychrel 数字。这基本上意味着该程序取一个数及其倒数之和，然后取那个数及其倒数之和，等等，直到找到回文。如果它在一定的迭代次数内没有找到这样的数字(我在这
java - 达到 65536 字节限制
我即将对这个可怕的旧 Java Web 应用程序做一些工作，这是我的一个 friend 不久前继承的。在我设置 tomcat、导入项目和所有这些到我的 eclipse 工作区后，我收到此错误，指出
iphone - 达到 NSDictionary 中最深的子级别
我有一个 NSDictionary 对象，其中包含深层结构，例如包含包含字典的进一步数组的数组... 我想在层次结构中向下获取一个对象。是否有任何直接索引方法可以使用键名或其他方式获取它们？多次调用
html - 达到 710px 后边框比其内容更宽
正如标题所说，我的 .border div 的边框跨度比它里面的要宽。它只会在达到 710px 时发生，因此您需要在 this fiddle 中展开结果窗口。 . 我希望边框保持在其内容周围而不超过它
vba - 达到 ComboBox 最大记录数
我在 MySQL 中有一个表，通过 Microsoft Access 2013 中的链接表(通过 ODBC) Access 。此表包含超过 124,000 条记录，我需要一个表单中的 ComboBo
javascript - 达到 maxlength 值后聚焦下一个输入
一旦上一个输入达到其最大长度值，我如何才能聚焦下一个输入？ a: b: c: 如果用户粘贴的文本大于最大长度，理想情况下它应该溢出到下一个输入。 jsFiddle: http://jsfiddl
JMeter 负载测试导致目标服务器 CPU 达到 100%
我的任务是在客户的 QA 服务器上提供服务器性能报告。理想情况下，客户希望对约 900 个并发用户进行负载测试，因为这是他们在高峰时段通常使用的数量。然而，我一直在做的负载测试正在使他们的 QA 服务
python - 达到 Django Celery 最大数据库连接数
我在 django 应用程序中对我的 celery worker 运行任务，其中每个任务执行大约需要 1-2 秒。通常这些执行都很好，但有时，特别是如果 Django 应用程序已经部署了一段时间，我开
erlang - 达到 max_restart_intensity 的主管如何才能删除有问题的 child ？
我有一个 one_for_one 主管来处理类似且完全独立的 child 。当一个 child 出现问题时，反复崩溃并触发: =SUPERVISOR REPORT==== 30-Mar-2011::
firebase - Firebase 达到 100 个并发连接限制后何时允许新连接？
根据该网站，他们在免费计划中限制了 100 个并发连接，但是当第 101 个连接尝试连接时，它被拒绝，那么什么时候允许新连接？例如:用户是否必须等待一定时间或一旦一个连接关闭，另一个连接就有机会连接

首页

博学

6Ren·AI

商城

kubernetes - GKE Kubernetes Autoscaler - 最大集群 cpu，达到内存限制