python - Kubernetes POD 重启-6ren

python - Kubernetes POD 重启

转载作者：行者123 更新时间：2023-12-02 11:39:45

25

4

我正在运行具有两个节点池的 GKE 集群。

第一个节点池:1 个节点(无自动扩展)(4 个 vCPU，16 GB RAM)

第二个节点池:1 个节点(自动扩展到 2 个节点)(1 个 vCPU、3.75 GB RAM)

此处:kubectl 顶部节点

我们使用单个节点启动集群，在单个节点上运行 Elasticsearch、Redis、RabbitMQ 和所有微服务。我们不能在第一个节点池中添加更多节点，因为这会浪费资源。第一个节点可以满足所有资源需求。

我们仅面临一个微服务的 POD 重启。

核心服务 Pod 仅重新启动。当尝试描述 pod 时，它是ERROR 137 终止。

在 GKE 堆栈驱动图中，内存 和 CPU 未达到限制。

集群中所有 Pod 利用率

在集群日志中我发现了这个警告:

0/3 nodes are available: 3 Insufficient CPU.

但这里总共有 3 个节点 CPU，大约 6 个 vCPU，这已经足够了。

还有这个错误

Memory cgroup out of memory: Kill process 3383411 (python3) score 2046 or sacrifice child Killed process 3384902 (python3) total-vm:14356kB, anon-rss:5688kB, file-rss:4572kB, shmem-rss:0kB

编辑:1

Name:           test-core-7fc8bbcb4c-vrbtw
Namespace:      default
Priority:       0
Node:           gke-test-cluster-highmem-pool-gen2-f2743e02-msv2/10.128.0.7
Start Time:     Fri, 17 Jan 2020 19:59:54 +0530
Labels:         app=test-core
                pod-template-hash=7fc8bbcb4c
                tier=frontend
Annotations:    <none>
Status:         Running
IP:             10.40.0.41
IPs:            <none>
Controlled By:  ReplicaSet/test-core-7fc8bbcb4c
Containers:
  test-core:
    Container ID:   docker://0cc49c15ed852e99361590ee421a9193e10e7740b7373450174f549e9ba1d7b5
    Image:          gcr.io/test-production/core/production:fc30db4
    Image ID:       docker-pullable://gcr.io/test-production/core/production@sha256:b5dsd03b57sdfsa6035ff5ba9735984c3aa714bb4c9bb92f998ce0392ae31d055fe
    Ports:          9595/TCP, 443/TCP
    Host Ports:     0/TCP, 0/TCP
    State:          Running
      Started:      Sun, 19 Jan 2020 14:54:52 +0530
    Last State:     Terminated
      Reason:       Error
      Exit Code:    137
      Started:      Sun, 19 Jan 2020 07:36:42 +0530
      Finished:     Sun, 19 Jan 2020 14:54:51 +0530
    Ready:          True
    Restart Count:  7
    Limits:
      cpu:     990m
      memory:  1Gi
    Requests:
      cpu:      200m
      memory:   128Mi
    Liveness:   http-get http://:9595/k8/liveness delay=25s timeout=5s period=5s #success=1 #failure=30
    Readiness:  http-get http://:9595/k8/readiness delay=25s timeout=8s period=5s #success=1 #failure=30
    Environment Variables from:
      test-secret             Secret     Optional: false
      core-staging-configmap  ConfigMap  Optional: false
Conditions:
  Type              Status
  Initialized       True 
  Ready             True 
  ContainersReady   True 
  PodScheduled      True 
Volumes:
  default-token-hcz6d:
    Type:        Secret (a volume populated by a Secret)
    SecretName:  default-token-hcz6d
    Optional:    false
QoS Class:       Burstable
Node-Selectors:  <none>
Tolerations:     node.kubernetes.io/not-ready:NoExecute for 300s
                 node.kubernetes.io/unreachable:NoExecute for 300s
Events:          <none>

请帮忙。提前谢谢您。

最佳答案

Pod 中运行的应用程序消耗的内存可能超过指定的限制。您可以 docker exec/kubectl exec 进入容器并使用 top 监视应用程序。但从管理整个集群的角度来看，我们使用cadvisor(Kubelet的一部分)+Heapster来实现。但现在 Heapster 被 kube-metric 服务器取代 ( https://kubernetes.io/docs/tasks/debug-application-cluster/resource-usage-monitoring )

关于python - Kubernetes POD 重启，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59798922/

25

4

0

文章推荐： kubernetes - 如何构建/分组 Kubernetes 部署？

文章推荐： jmeter - HTTP 200 响应代码在 Blazemeter 中显示为错误

文章推荐： matrix - 如何将大矩阵发送到着色器？

kubernetes - Kubernetes 中的 skydns 服务无法解析 'kubernetes'
core@core-1-94 ~ $ kubectl exec -it busybox -- nslookup kubernetesServer: 10.100.0.10Address 1: 1
kubernetes - 如何从 kubernetes 集群注销 kubernetes 节点
我有一个节点错误地注册在集群 B 上，而它实际上为集群 A 服务。这里“在集群 B 上注册”意味着我可以从 kubectl get node 看到节点来自集群 B。我想从集群 B 中取消注册这个节
kubernetes - Kubernetes 和 Kubernetes Engine 有什么区别？
据我所知，Kubernetes 是一个用于部署和管理容器的编排框架。另一方面，Kubernetes Engine 负责集群的伸缩，以及管理容器镜像。从上面看，它们似乎是同一件事或非常相似。从上面的定
kubernetes - 使用非管理权限在本地运行 Kubernetes 并且缺少 kubernetes 配置文件
我正在学习 Kubernetes 和 Docker，以启动一个简单的 Python 网络应用程序。我对上述所有技术都不熟悉。下面是我计划的方法: 安装 Kubernetes。在本地启动并运行集群。
kubernetes - kubernetes 就绪检查应该检查什么
我了解如何在 kubernetes 中设置就绪探测器，但是是否有任何关于在调用就绪探测器时微服务应实际检查哪些内容的最佳实践？两个具体例子: 一个面向数据库的微服务，如果没有有效的数据库连接，几乎所有
kubernetes - Kubernetes 调度器依赖于哪些指标？
Kubernetes 调度程序是仅根据请求的资源和节点在服务器当前快照中的可用资源将 Pod 放置在节点上，还是同时考虑节点的历史资源利用率？最佳答案在官方Kubernetes documenta
kubernetes - kubernetes 命名空间中部署定义的唯一性
我们有多个环境，如 dev、qa、prepod 等。我们有基于环境的命名空间。现在我们将服务命名为 environment 作为后缀。例如。， apiVersion: apps/v1
kubernetes - Kubernetes 中命名空间的使用
我有一个关于命名空间的问题，并寻求您的专业知识来消除我的疑虑。我对命名空间的理解是，它们用于在团队和项目之间引入逻辑边界。当然，我在某处读到命名空间可用于在同一集群中引入/定义不同的环境。例如测
kubernetes - Kubernetes 中用户或角色的命名空间
我知道角色用于授予用户或服务帐户在特定命名空间中执行操作的权限。一个典型的角色定义可能是这样的 kind: Role apiVersion: rbac.authorization.k8s.io/v1
kubernetes - Kubernetes 中的服务位于何处？
我正在学习 Kubernetes，目前正在深入研究高可用性，虽然我知道我可以使用本地(或远程)etcd 以及一组高可用性的控制平面(API 服务器、 Controller 、调度程序)来设置minio
kubernetes - Kubernetes 中的服务帐户和上下文有什么区别？
两者之间有什么实际区别？我什么时候应该选择一个？例如，如果我想让我的项目中的开发人员仅查看 pod 的日志。似乎可以通过 RoleBinding 为服务帐户或上下文分配这些权限。最佳答案什么是服
kubernetes - Kubernetes 上基于时间的容器调度？
根据基于时间的计划执行容器或 Pod 的推荐方法是什么？例如，每天凌晨 2 点运行 10 分钟的任务。在传统的 linux 服务器上，crontab 很容易工作，而且显然在容器内部仍然是可能的。然而
kubernetes - kubernetes 中的入口和服务网格有什么区别？
有人可以帮助我了解服务网格本身是否是一种入口，或者服务网格和入口之间是否有任何区别？最佳答案 “入口”负责将流量路由到集群中(来自 Docs:管理对集群中服务的外部访问的 API 对象，通常是 HT
kubernetes - Kubernetes 中的多个集群
我是 kubernetes 集群的新手。我有一个简单的问题。我在多个 kubernetes 集群中。 kubernetes 中似乎有多个集群可用。所以 kubernetes 中的“多集群”意味着:
kubernetes - Kubernetes-滚动更新可以杀死旧的pod而不产生新的pod
我目前正在使用Deployments管理我的K8S集群中的Pod。我的某些部署需要2个Pod /副本，一些部署需要3个Pod /副本，而有些部署只需要1个Pod /副本。我遇到的问题是只有一个 po
kubernetes - Kubernetes 的连接服务是什么？
我看过官方文档:https://kubernetes.io/docs/tasks/setup-konnectivity/setup-konnectivity/但我还是没明白它的意思。我有几个问题:
kubernetes - Kubernetes 上的批处理
这里的任何人都有在 kubernetes 上进行批处理(例如 spring 批处理)的经验？这是个好主意吗？如果我们使用 kubernetes 自动缩放功能，如何防止批处理处理相同的数据？谢谢你。最
kubernetes - 避免 kubernetes 调度程序在 kubernetes 集群的单个节点中运行所有 pod
我有一个具有 4 个节点和一个主节点的 Kubernetes 集群。我正在尝试在所有节点中运行 5 个 nginx pod。目前，调度程序有时在一台机器上运行所有 pod，有时在不同的机器上运行。如
kubernetes - 如何安装特定版本的 Kubernetes？
我在运行 Raspbian Stretch 的 Raspberry PI 3 上使用以下命令安装最新版本的 Kubernetes。 $ curl -s https://packages.cloud.g
kubernetes - Kubernetes 中容器端口和目标端口的区别？
container port 与 Kubernetes 容器中的 targetports 有何不同？它们是否可以互换使用，如果可以，为什么？我遇到了下面的代码片段，其中 containerPort

首页

博学

6Ren·AI

商城

python - Kubernetes POD 重启