logging - stackdriver-metadata-agent-cluster-level 得到 OOMKilled-6ren

logging - stackdriver-metadata-agent-cluster-level 得到 OOMKilled

转载作者：行者123 更新时间：2023-12-02 11:27:44

24

4

我将 GKE 集群从 1.13 更新到 1.15.9-gke.12。在此过程中，我从传统日志记录切换到 Stackdriver Kubernetes Engine Monitoring。现在我遇到的问题是 stackdriver-metadata-agent-cluster-level pod 不断重启，因为它得到 OOMKilled .

不过内存好像还好。
enter image description here

日志看起来也很好(与新创建的集群的日志相同):

I0305 08:32:33.436613       1 log_spam.go:42] Command line arguments:
I0305 08:32:33.436726       1 log_spam.go:44]  argv[0]: '/k8s_metadata'
I0305 08:32:33.436753       1 log_spam.go:44]  argv[1]: '-logtostderr'
I0305 08:32:33.436779       1 log_spam.go:44]  argv[2]: '-v=1'
I0305 08:32:33.436818       1 log_spam.go:46] Process id 1
I0305 08:32:33.436859       1 log_spam.go:50] Current working directory /
I0305 08:32:33.436901       1 log_spam.go:52] Built on Jun 27 20:15:21 (1561666521)
 at gcm-agent-dev-releaser@ikle14.prod.google.com:/google/src/files/255462966/depot/branches/gcm_k8s_metadata_release_branch/255450506.1/OVERLAY_READONLY/google3
 as //cloud/monitoring/agents/k8s_metadata:k8s_metadata
 with gc go1.12.5 for linux/amd64
 from changelist 255462966 with baseline 255450506 in a mint client based on //depot/branches/gcm_k8s_metadata_release_branch/255450506.1/google3
Build label: gcm_k8s_metadata_20190627a_RC00
Build tool: Blaze, release blaze-2019.06.17-2 (mainline @253503028)
Build target: //cloud/monitoring/agents/k8s_metadata:k8s_metadata
I0305 08:32:33.437188       1 trace.go:784] Starting tracingd dapper tracing
I0305 08:32:33.437315       1 trace.go:898] Failed loading config; disabling tracing: open /export/hda3/trace_data/trace_config.proto: no such file or directory
W0305 08:32:33.536093       1 client_config.go:549] Neither --kubeconfig nor --master was specified.  Using the inClusterConfig.  This might not work.
I0305 08:32:33.936066       1 main.go:134] Initiating watch for { v1 nodes} resources
I0305 08:32:33.936169       1 main.go:134] Initiating watch for { v1 pods} resources
I0305 08:32:33.936231       1 main.go:134] Initiating watch for {batch v1beta1 cronjobs} resources
I0305 08:32:33.936297       1 main.go:134] Initiating watch for {apps v1 daemonsets} resources
I0305 08:32:33.936361       1 main.go:134] Initiating watch for {extensions v1beta1 daemonsets} resources
I0305 08:32:33.936420       1 main.go:134] Initiating watch for {apps v1 deployments} resources
I0305 08:32:33.936489       1 main.go:134] Initiating watch for {extensions v1beta1 deployments} resources
I0305 08:32:33.936552       1 main.go:134] Initiating watch for { v1 endpoints} resources
I0305 08:32:33.936627       1 main.go:134] Initiating watch for {extensions v1beta1 ingresses} resources
I0305 08:32:33.936698       1 main.go:134] Initiating watch for {batch v1 jobs} resources
I0305 08:32:33.936777       1 main.go:134] Initiating watch for { v1 namespaces} resources
I0305 08:32:33.936841       1 main.go:134] Initiating watch for {apps v1 replicasets} resources
I0305 08:32:33.936897       1 main.go:134] Initiating watch for {extensions v1beta1 replicasets} resources
I0305 08:32:33.936986       1 main.go:134] Initiating watch for { v1 replicationcontrollers} resources
I0305 08:32:33.937067       1 main.go:134] Initiating watch for { v1 services} resources
I0305 08:32:33.937135       1 main.go:134] Initiating watch for {apps v1 statefulsets} resources
I0305 08:32:33.937157       1 main.go:142] All resources are being watched, agent has started successfully
I0305 08:32:33.937168       1 main.go:145] No statusz port provided; not starting a server
I0305 08:32:37.134913       1 binarylog.go:95] Starting disk-based binary logging
I0305 08:32:37.134965       1 binarylog.go:265] rpc: flushed binary log to ""

我已经尝试禁用日志记录并重新启用它但没有成功。它一直在重新启动(或多或少每分钟)。

有人有同样的经历吗？

最佳答案

该问题是由于 metadata-agent 上设置的 LIMIT 引起的部署资源太少，因此 POD 被终止(OOM 终止)，因为 POD 需要更多内存才能正常工作。

在修复此问题之前，有一个解决方法。

您可以覆盖 metadata-agent 的 configmap 中的基础资源。与:
kubectl edit cm -n kube-system metadata-agent-config
设置 baseMemory: 50Mi应该足够了，如果它不起作用，请使用更高的值 100Mi或 200Mi .

所以metadata-agent-config configmap 应该是这样的:

apiVersion: v1
data:
  NannyConfiguration: |-
    apiVersion: nannyconfig/v1alpha1
    kind: NannyConfiguration
    baseMemory: 50Mi
kind: ConfigMap

另请注意，您需要重新启动部署，因为不会自动获取配置映射:
kubectl delete deployment -n kube-system stackdriver-metadata-agent-cluster-level
有关更多详细信息，请查看 addon-resizer Documentation .

关于logging - stackdriver-metadata-agent-cluster-level 得到 OOMKilled，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60541105/

24

4

0

文章推荐： kubernetes - 如何在Kubectl部署中传递环境变量？

文章推荐： minikube - Kubernetes:如何根据年龄/创作时间删除POD

文章推荐： kubernetes - 是什么导致Pod在Kubernetes中变慢？

java - 'level.tick()' 和 'Level.tick(level)' 之间的区别
我是业余时间的 Java 开发者，我只是想知道 level.tick() 和 Level.tick(level) ('Level' 是类的名称，'level' 是该类的对象) 我知道，由于 java
asp.net-mvc - 在 asp.net MVC 中的 Level Views Level 或 Model level 中验证更明智
在 asp.net MVC 中的 Level Views Level 或 Model level 中验证更明智以及有关 MVC 中验证的良好教程的链接？最佳答案验证应始终在可能的情况下在客户端和
随机数发生器 : Class level or Method level?
当使用随机数生成器时，为了使新值具有更大的随机性，这是更好的使用方式: 有没有一种每次都实例化一个新的 RNG 实例然后返回一个值的方法？在类级别有一个 RNG 实例，它在构造函数中实例化一次，并且
oop - 单一责任原则: class level or method level
我在理解“单一责任原则”时遇到问题。应该在类级别或方法级别应用SRP。可以说我有学生类，我需要创建学生，更新学生和删除学生。如果我创建一个具有用于这三个操作的方法的服务类，则会违反SRP原则。最
c++ - 初学者 : Should I start High Level or Low Level?
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
debugging - 在日志记录中，Level.INFO 和 Level.DEBUG 之间的概念差异是什么
这个问题与语言无关。枚举级别之间有什么区别。在应用程序中，我看到许多 INFO 消息对我来说似乎是 DEBUG 信息，反之亦然。最佳答案对此有多种不同的解释。我个人的看法是: 信息 - 与申请状态
haskell FFI : Top-level FunPtr to a top-level function?
似乎最好只为顶级函数创建一次 FunPtr，而不是在需要时创建一个新的函数(同一函数)并处理其释放。除了 foreign import ccall "wrapper" 之外，我是否忽略了获取 Fun
c# - 依赖倒置原则 : High Level and Low Level module example
我正在经历以下 link了解在依赖倒置原则的背景下高级和低级模块的含义。根据那里给出的解释，以下代码片段是一个好的/合适的示例吗？ public class HighLevel { priv
java - App URLRewrite设计方法: rewrite on container level or on app level and why?
我很好奇在 Java 应用程序中执行 URL 重写的最佳方法是什么。假设您有一个名为 test_app 的应用程序，我将其部署在 tomcat 上。通过 URL 重写，我的意思是我不想通过 host
Python low-level vs high-level performance(回文函数运行时分析)
我试图找到最有效的方法来检查给定的字符串是否为回文。首先，我尝试了蛮力，其运行时间为 O(N)。然后我通过只进行 n/2 次比较而不是 n 次来稍微优化代码。代码如下: def palindrom
sql - 如何传递 "select level from dual connect by level < "中的行数？
我有一个包含一些随机自然数的表格，例如: number ------- 2 3 1 我想从这个表中检索一个集合，其中每一行都将包含与值显示的次数一样多的次数，例如上面它将是: number -----
python - 使用 pytest : module level or test level? 导入单元测试资源
我一直在了解测试驱动开发的优势，并尝试使用 pytest 开发我的第一个 TDD 应用程序和 setuptools 开发选项。到目前为止进展顺利。我有一个问题:我的 test_* 模块中应该将要测试
Python 日志记录 : propagate messages of level below current logger level
我想将特定记录器名称、特定级别或更高级别(比如 INFO 及以上)的消息记录到特定的日志处理程序，比如文件处理程序，同时仍然获取所有日志消息到控制台。 Python 是 2.7 版。到目前为止我尝试
javascript - DOM Level 0 事件与 DOM Level 2 事件有什么区别？
DOM Level 0 事件与 DOM Level 2 事件有什么区别？我问是因为有人告诉我 Firefox 和 IE 以不同的顺序调用它们，而我以前从未听过这些术语。最佳答案 DOM Level
python - NLP 任务中的 token-level 和 segment-level 有什么区别？
其实我对token不是很了解..当我阅读 googleresearch/bert model 时，我看到了这些词。 # In the demo, we are doing a simple class
asp.net - 哪个更好 : to sort results at the database level or at the application level
假设我们在站点中有一个页面，它显示了数据库中的一些记录。我们需要显示按某列排序的记录。哪种方法可以提供更好的性能:检索从数据库中排序的数据或在网格上应用排序？谢谢最佳答案这取决于您要显示的数
python - NLP 任务中的 token-level 和 segment-level 有什么区别？
其实我对token不是很了解..当我阅读 googleresearch/bert model 时，我看到了这些词。 # In the demo, we are doing a simple class
CSS 下拉菜单 : Third-level list doesn't hide after leaving through second-level
我有以下 CSS 下拉菜单标记: FieldOne LevelOne FieldTwo LevelOne FieldThree LevelOne
javascript - DOM level 2 相对于 DOM level 0 的优势是什么？
这个问题已经有答案了: What is the difference between DOM Level 0 events vs DOM Level 2 events? (2 个回答) 已关闭 9 年
php - 删除 level 1 array search by value on level 2
如何通过搜索数组(第 2 级)中的重复值来删除一行数组(第 1 级)？ $array = array( 0 => array('name' => 'haha1', 'dateline' => '

首页

博学

6Ren·AI

商城

logging - stackdriver-metadata-agent-cluster-level 得到 OOMKilled