Kubernetes Prometheus CrashLoopBackOff/OOMKilled Puzzle-6ren

Kubernetes Prometheus CrashLoopBackOff/OOMKilled Puzzle

转载作者：行者123 更新时间：2023-12-02 11:55:03

27

4

我定期看到容器
状态:终止 - OOMKilled (退出代码:137)
但是被调度到内存充足的节点

$ k get statefulset -n metrics 
NAME                      READY   AGE
prometheus                0/1     232d


$ k get po -n metrics
prometheus-0  1/2     CrashLoopBackOff   147        12h

$ k get events  -n metrics
LAST SEEN   TYPE      REASON    OBJECT             MESSAGE
10m         Normal    Pulled    pod/prometheus-0   Container image "prom/prometheus:v2.11.1" already present on machine
51s         Warning   BackOff   pod/prometheus-0   Back-off restarting failed container


k logs -f prometheus-0 -n metrics --all-containers=true

level=warn ts=2020-08-22T20:48:02.302Z caller=main.go:282 deprecation_notice="'storage.tsdb.retention' flag is deprecated use 'storage.tsdb.retention.time' instead."
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:329 msg="Starting Prometheus" version="(version=2.11.1, branch=HEAD, revision=e5b22494857deca4b806f74f6e3a6ee30c251763)"
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:330 build_context="(go=go1.12.7, user=root@d94406f2bb6f, date=20190710-13:51:17)"
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:331 host_details="(Linux 4.14.186-146.268.amzn2.x86_64 #1 SMP Tue Jul 14 18:16:52 UTC 2020 x86_64 prometheus-0 (none))"
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:332 fd_limits="(soft=1048576, hard=1048576)"
level=info ts=2020-08-22T20:48:02.303Z caller=main.go:333 vm_limits="(soft=unlimited, hard=unlimited)"
level=info ts=2020-08-22T20:48:02.307Z caller=main.go:652 msg="Starting TSDB ..."
level=info ts=2020-08-22T20:48:02.307Z caller=web.go:448 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2020-08-22T20:48:02.311Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597968000000 maxt=1597975200000 ulid=01EG7FAW5PE9ARVHJNKW1SJXRK
level=info ts=2020-08-22T20:48:02.312Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597975200000 maxt=1597982400000 ulid=01EG7P6KDPXPFVPSMBXBDF48FQ
level=info ts=2020-08-22T20:48:02.313Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597982400000 maxt=1597989600000 ulid=01EG7X2ANPN30M8ET2S8EPGKEA
level=info ts=2020-08-22T20:48:02.314Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597989600000 maxt=1597996800000 ulid=01EG83Y1XPXRWRRR2VQRNFB37F
level=info ts=2020-08-22T20:48:02.314Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597996800000 maxt=1598004000000 ulid=01EG8ASS5P9J1TBZW2P4B2GV7P
level=info ts=2020-08-22T20:48:02.315Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598004000000 maxt=1598011200000 ulid=01EG8HNGDXMYRH0CGWNHKECCPR
level=info ts=2020-08-22T20:48:02.316Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598011200000 maxt=1598018400000 ulid=01EG8RH7NPHSC5PAGXCMN8K9HE
level=info ts=2020-08-22T20:48:02.317Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598018400000 maxt=1598025600000 ulid=01EG8ZCYXNABK8FD3ZGFSQ9NGQ
level=info ts=2020-08-22T20:48:02.317Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598025600000 maxt=1598032800000 ulid=01EG968P5T7SJTVDCZGN6D5YW2
level=info ts=2020-08-22T20:48:02.317Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598032800000 maxt=1598040000000 ulid=01EG9D4DDPR9SE62C0XNE0Z64C
level=info ts=2020-08-22T20:48:02.318Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598040000000 maxt=1598047200000 ulid=01EG9M04NYMAFACVCMDD2RF11W
level=info ts=2020-08-22T20:48:02.319Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598047200000 maxt=1598054400000 ulid=01EG9TVVXNJ7VCDXQNNK2BTZAE
level=info ts=2020-08-22T20:48:02.320Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598054400000 maxt=1598061600000 ulid=01EGA1QK5PHHZ6P6TNPHDWSD81

k describe statefulset prometheus -n metrics
Name:               prometheus
Namespace:          metrics
CreationTimestamp:  Fri, 03 Jan 2020 04:33:58 -0800
Selector:           app=prometheus
Labels:             <none>
Annotations:        <none>
Replicas:           1 desired | 1 total
Update Strategy:    RollingUpdate
  Partition:        824644121032
Pods Status:        1 Running / 0 Waiting / 0 Succeeded / 0 Failed
Pod Template:
  Labels:           app=prometheus
  Annotations:      checksum/config: 6982e2d83da89ab6fa57e1c2c8a217bb5c1f5abe13052a171cd8d5e238a40646
  Service Account:  prometheus
  Containers:
   prometheus-configmap-reloader:
    Image:      jimmidyson/configmap-reload:v0.1
    Port:       <none>
    Host Port:  <none>
    Args:
      --volume-dir=/etc/prometheus
      --webhook-url=http://localhost:9090/-/reload
    Environment:  <none>
    Mounts:
      /etc/prometheus from prometheus (ro)
   prometheus:
    Image:      prom/prometheus:v2.11.1
    Port:       9090/TCP
    Host Port:  0/TCP
    Args:
      --config.file=/etc/prometheus/prometheus.yml
      --web.enable-lifecycle
      --web.enable-admin-api
      --storage.tsdb.path=/prometheus/data
      --storage.tsdb.retention=1d
    Limits:
      memory:     1Gi
    Liveness:     http-get http://:9090/-/healthy delay=180s timeout=1s period=120s #success=1 #failure=3
    Environment:  <none>
    Mounts:
      /etc/prometheus from prometheus (rw)
      /etc/prometheus-alert-rules from prometheus-alert-rules (rw)
      /prometheus/data from prometheus-data-storage (rw)
  Volumes:
   prometheus:
    Type:      ConfigMap (a volume populated by a ConfigMap)
    Name:      prometheus
    Optional:  false
   prometheus-alert-rules:
    Type:      ConfigMap (a volume populated by a ConfigMap)
    Name:      prometheus-alert-rules
    Optional:  false
Volume Claims:
  Name:          prometheus-data-storage
  StorageClass:  prometheus
  Labels:        <none>
  Annotations:   <none>
  Capacity:      20Gi
  Access Modes:  [ReadWriteOnce]
Events:          <none>

可能是什么原因？

最佳答案

Periodically I see the container Status: terminated - OOMKilled (exit code: 137)

But it's scheduled to the node with plenty of memory

正如您可能已经看到的那样，很明显您达到了超过 1GB 的配置。答案可能在于您如何使用 Prometheus 以及您对 1GB 的使用限制。您可以查看的一些内容:

时间序列数量

每个时间序列的平均标签

唯一标签对的数量

抓取间隔 (s)

每个样本的字节数

上面的用法可以找到内存计算器👉 here .
✌️

关于Kubernetes Prometheus CrashLoopBackOff/OOMKilled Puzzle，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63541085/

27

4

0

文章推荐： kubernetes - docker 桌面上的 istio 入口 404

文章推荐： kubernetes - 查找有问题的 pod

文章推荐： azure - 无法访问 AKS 上 LoadBalancer 类型的 Kubernetes 服务

kubernetes - CrashLoopBackOff - 退避重启失败的容器
我的图片托管在 GCR 上。我想在我的本地系统 (mac) 上创建 Kubernetes 集群。我遵循的步骤: 创建一个 imagePullSecretKey 创建通用 key 以与 GCP 通信。
kubernetes - 如何清除 CrashLoopBackOff
当 Kubernetes Pod 进入 CrashLoopBackOff 状态时，您将修复根本问题。如何强制重新安排时间？最佳答案要应用新配置，应创建新 Pod(旧 Pod 将被删除)。如果您的
kubernetes - 创建kafka容器时如何修复 “crashLoopBackoff”
我正在设置具有高可用性的kafka和zookeeper集群。我有2个kafka代理(pod1，pod2)和3个zookeeper(pod1，pod2，pod3)。设置工作正常。当我进入一个kafka经
kubernetes - CrashLoopBackOff 时如何自动停止滚动更新？
我使用 Google Kubernetes Engine 并且故意在代码中添加了错误。我希望滚动更新会在发现状态为 CrashLoopBackOff 时停止，但事实并非如此。在此 page ，他们
docker - Kubernetes 编织网络状态显示 - CrashLoopBackOff
环境:(内部部署):- K8s-Master Server: Standalone Physical server. OS - CentOS Linux release 8.2.2004 (Core)
kubernetes - kube-api服务器未启动(CrashLoopBackOff)
我无法在我的1个主节点群集上启动kube-apiserver。 kubelet继续尝试启动服务，但始终获得CrashLoopBackOff。我试图使用docker run命令运行容器，并且得到以下日
Kubernetes calico 节点 CrashLoopBackOff
虽然有一些像我一样的问题，但修复对我不起作用。我正在使用 kubernetes v1.9.3 二进制文件并使用 flannel 和 calico 来设置 kubernetes 集群。应用 calic
postgresql - CrashLoopBackOff (postgres) - GCP
Error from server: Get https://10.128.15.203:10250/containerLogs/default/postgres-54db6bdb8b-cmrsb/p
kubernetes - kubeadm初始化后的kube-proxy CrashLoopBackOff
我正在使用kubeadm在CentOS 7.4 / Docker 1.12.6上创建kubernetes v1.9.3集群。我正在按照Using kubeadm to Create a Cluste
kubernetes init 容器 CrashLoopBackOff
我正在创建一个带有一个初始化容器的复制 Controller 。但是 init 容器无法启动并且 pod 的状态是: NAME READY STAT
bash - Kubernetes:如何调试 CrashLoopBackOff
我有以下设置: docker hub 上的 docker 镜像 omg/telperion一个 kubernetes 集群(有 4 个节点，每个节点有 ~50GB RAM)和大量资源我按照教程将图像
docker - kubernetes-dashboard 上的 CrashLoopBackOff
我是 Kubernetes 的菜鸟。我正在尝试按照一些方法来启动并运行一个小集群，但是我遇到了麻烦...... 我有一个主节点和 (4) 个节点，都运行 Ubuntu 16.04 在所有节点上安装 d
azure - AKS 中状态为 CrashLoopBackOff 的容器
我正在尝试将容器部署到 AKS，但 Pod 始终处于 CrashLoopBackOff 状态并重新启动。我尝试了不同的 Pod，但显然与这方面无关。该 Pod 具有非常简单的功能行为，可以在本地正常
kubernetes - 如何修复第二个节点的 weave-net CrashLoopBackOff？
我有 2 个虚拟机节点。两者可以通过主机名(通过/etc/hosts)或通过 IP 地址相互查看。已将 kubeadm 配置为 master。另一个作为工作节点。按照说明( http://kubern
kubernetes - 在新的 HA 集群上编织 CrashLoopBackOff
我按照以下指南使用 kubeadm 创建了一个 HA 集群: https://kubernetes.io/docs/setup/production-environment/tools/kubeadm
nginx - OpenWhisk Nginx Pod CrashLoopBackOff
我是OpenWhisk的新手，在安装过程中遇到了一些困难。由于Pod中的错误，Ngnix Pod正在CrashLoopBackOff中运行。 2018/07/02 16:14:27 [emerg]
kubernetes - kubernetes 中的 coredns crashloopbackoff
我在 ubuntu 16.04 中设置了 kubernetes。我正在使用 kube 版本 1.13.1 并使用 weave 进行网络连接。我已经使用以下方法初始化了集群: sudo kubeadm
Kubernetes Prometheus CrashLoopBackOff/OOMKilled Puzzle
我定期看到容器状态:终止 - OOMKilled (退出代码:137) 但是被调度到内存充足的节点 $ k get statefulset -n metrics NAME
成功完成后处于 CrashLoopBackOff 状态的 Kubernetes pod
我在 Kubernetes 1.0 中运行一个集群，我有一些容器我想定期运行，作为 pod 中的 sidecar 容器——通常是推送或拉取备份。我通过使用包含我想要备份的数据的容器和用于备份它的 si
docker - 在 kubernetes 集群中部署镜像获取 CrashLoopBackOff
我正在使用 kubernetes 集群使用 kubectl create -f dummy.yaml 部署图像。我的图像在 docker hub 中是公开的，图像大小为 1.3 GB。图像拉取成功但

首页

博学

6Ren·AI

商城

Kubernetes Prometheus CrashLoopBackOff/OOMKilled Puzzle