gpt4 book ai didi

python - Kubernetes POD 重启

转载 作者:行者123 更新时间:2023-12-02 11:39:45 25 4
gpt4 key购买 nike

我正在运行具有两个节点池的 GKE 集群。

第一个节点池:1 个节点(无自动扩展)(4 个 vCPU,16 GB RAM)

第二个节点池:1 个节点(自动扩展到 2 个节点)(1 个 vCPU、3.75 GB RAM)

此处:kubectl 顶部节点

enter image description here

我们使用单个节点启动集群,在单个节点上运行 Elasticsearch、Redis、RabbitMQ 和所有微服务。我们不能在第一个节点池中添加更多节点,因为这会浪费资源。第一个节点可以满足所有资源需求。

我们仅面临一个微服务的 POD 重启。

enter image description here

核心服务 Pod 仅重新启动。当尝试描述 pod 时,它是ERROR 137 终止

在 GKE 堆栈驱动图中,内存CPU 未达到限制。

集群中所有 Pod 利用率

enter image description here

在集群日志中我发现了这个警告:

0/3 nodes are available: 3 Insufficient CPU. 

但这里总共有 3 个节点 CPU,大约 6 个 vCPU,这已经足够了。

还有这个错误

Memory cgroup out of memory: Kill process 3383411 (python3) score 2046 or sacrifice child Killed process 3384902 (python3) total-vm:14356kB, anon-rss:5688kB, file-rss:4572kB, shmem-rss:0kB

编辑:1

Name:           test-core-7fc8bbcb4c-vrbtw
Namespace: default
Priority: 0
Node: gke-test-cluster-highmem-pool-gen2-f2743e02-msv2/10.128.0.7
Start Time: Fri, 17 Jan 2020 19:59:54 +0530
Labels: app=test-core
pod-template-hash=7fc8bbcb4c
tier=frontend
Annotations: <none>
Status: Running
IP: 10.40.0.41
IPs: <none>
Controlled By: ReplicaSet/test-core-7fc8bbcb4c
Containers:
test-core:
Container ID: docker://0cc49c15ed852e99361590ee421a9193e10e7740b7373450174f549e9ba1d7b5
Image: gcr.io/test-production/core/production:fc30db4
Image ID: docker-pullable://gcr.io/test-production/core/production@sha256:b5dsd03b57sdfsa6035ff5ba9735984c3aa714bb4c9bb92f998ce0392ae31d055fe
Ports: 9595/TCP, 443/TCP
Host Ports: 0/TCP, 0/TCP
State: Running
Started: Sun, 19 Jan 2020 14:54:52 +0530
Last State: Terminated
Reason: Error
Exit Code: 137
Started: Sun, 19 Jan 2020 07:36:42 +0530
Finished: Sun, 19 Jan 2020 14:54:51 +0530
Ready: True
Restart Count: 7
Limits:
cpu: 990m
memory: 1Gi
Requests:
cpu: 200m
memory: 128Mi
Liveness: http-get http://:9595/k8/liveness delay=25s timeout=5s period=5s #success=1 #failure=30
Readiness: http-get http://:9595/k8/readiness delay=25s timeout=8s period=5s #success=1 #failure=30
Environment Variables from:
test-secret Secret Optional: false
core-staging-configmap ConfigMap Optional: false
Conditions:
Type Status
Initialized True
Ready True
ContainersReady True
PodScheduled True
Volumes:
default-token-hcz6d:
Type: Secret (a volume populated by a Secret)
SecretName: default-token-hcz6d
Optional: false
QoS Class: Burstable
Node-Selectors: <none>
Tolerations: node.kubernetes.io/not-ready:NoExecute for 300s
node.kubernetes.io/unreachable:NoExecute for 300s
Events: <none>

请帮忙。提前谢谢您。

最佳答案

Pod 中运行的应用程序消耗的内存可能超过指定的限制。您可以 docker exec/kubectl exec 进入容器并使用 top 监视应用程序。但从管理整个集群的角度来看,我们使用cadvisor(Kubelet的一部分)+Heapster来实现。但现在 Heapster 被 kube-metric 服务器取代 ( https://kubernetes.io/docs/tasks/debug-application-cluster/resource-usage-monitoring )

关于python - Kubernetes POD 重启,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59798922/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com