gpt4 book ai didi

google-kubernetes-engine - 主从 1.6.13-gke.0 升级到 1.7.11-gke.1 后的日志泛滥

转载 作者:行者123 更新时间:2023-12-01 13:25:33 27 4
gpt4 key购买 nike

我们有一个 GKE 集群:

  • 版本为 1.6.13-gke.0 的主节点
  • 2 个版本为 1.6.11-gke.0 的节点池

我们已激活 Stackdriver Monitoring 和 Logging。

2018-01-22 masters 由 Google 升级到 1.7.11-gke.1 版本。

升级后,我们有很多这样的错误:

I  2018-01-25 11:35:23 +0000 [error]: Exception emitting record: No such file or directory @ sys_fail2 - (/var/log/fluentd-buffers/kubernetes.system.buffer..b5638802e3e04e72f.log, /var/log/fluentd-buffers/kubernetes.system.buffer..q5638802e3e04e72f.log)

I 2018-01-25 11:35:23 +0000 [warn]: emit transaction failed: error_class=Errno::ENOENT error="No such file or directory @ sys_fail2 - (/var/log/fluentd-buffers/kubernetes.system.buffer..b5638802e3e04e72f.log, /var/log/fluentd-buffers/kubernetes.system.buffer..q5638802e3e04e72f.log)" tag="docker"

I 2018-01-25 11:35:23 +0000 [warn]: suppressed same stacktrace

这些消息每天充斥着我们的日志 ~ 25Gb 的日志,并且由名为​​ fluentd-gcp-v2.0.9 的 DaemonSet 管理的 pod 生成。

我们发现它是一个 bug固定在 1.8 和 backported to 1.7.12 .

我的问题是:

  1. 我们应该将 masters 升级到 1.7.12 版吗?这样做安全吗?或者
  2. 升级前是否还有其他替代测试?

提前致谢。

最佳答案

首先回答问题2。

作为替代方案,我们可以:

  • 过滤 fluentd 以忽略来自 fluentd-gcp pod 的日志或
  • 停用 Stackdriver 监控和日志记录

回答问题 1:

我们在测试环境中升级到 1.7.12。该过程耗时 3 分钟。在此期间,我们无法编辑我们的集群,也无法使用 kubectl 访问它(正如预期的那样)。

升级后,我们删除所有名为fluentd-gcp-*的pod,洪水立即停止:

for pod in $(kubectl get pods -nkube-system | grep fluentd-gcp | awk '{print $1}'); do \
kubectl -nkube-system delete pod $pod; \
sleep 20; \
done;

关于google-kubernetes-engine - 主从 1.6.13-gke.0 升级到 1.7.11-gke.1 后的日志泛滥,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48442077/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com