kubernetes - Kube-dns-间歇性名称解析错误-6ren

kubernetes - Kube-dns-间歇性名称解析错误

转载作者：行者123 更新时间：2023-12-02 11:49:24

30

4

我们正在AWS的CoreOS上运行kubernetes 1.5.7。我们的kube-dns镜像版本是

gcr.io/google_containers/kubedns-amd64:1.9
gcr.io/google_containers/kube-dnsmasq-amd64:1.4.1

我们传递给dnsmasq的args是

  --cache-size=1000
  --no-resolv
  --server=/in-addr.arpa/ip6.arpa/cluster.local/ec2.internal/127.0.0.1#10053
  --server=169.254.169.253
  --server=8.8.8.8
  --log-facility=-
  --log-async
  --address=/com.cluster.local/com.svc.cluster.local/com.kube-system.svc.cluster.local/<ourdomain>.com.cluster.local/<ourdomain>.com.svc.cluster.local/<ourdomain>.com.kube-system.svc.cluster.local/com.ec2.internal/ec2.internal.kube-system.svc.cluster.local/ec2.internal.svc.cluster.local/ec2.internal.cluster.local/

我们在20个节点群集中的每个节点上运行1个kube-dns pod。在过去的几个月中，我们经历了5到10分钟不等的DNS故障，这使我们的服务几乎无法使用，因为大多数名称查找都无法使用名称解析。在这些事件中，我们运行了3-6个kube-dns pod。从那时起，我们就将kube-dns Pod的配置大大地提高到每个节点1个，并且没有看到任何长时间的5-10分钟的DNS故障事件。但是，现在我们仍然看到较小的DNS故障事件，范围为1-30秒。在调查这些问题期间，我们在日志中注意到dnsmasq-metrics容器中的以下错误

ERROR: logging before flag.Parse: W0517 03:19:50.139060 1 server.go:53] Error getting metrics from dnsmasq: read udp 127.0.0.1:36181->127.0.0.1:53: i/o timeout

每当我们有一个持续1-30秒的较小DNS事件之一时，我们就会从kube-dns Pane 中找到这些日志。有一阵子，我们怀疑我们遇到了iptables / conntrack问题，导致Pod到达了kube-dns服务。但是基于这些与dnsmasq相关的错误，我们认为dnsmasq在一段时间内拒绝连接会导致我们一直遇到的DNS故障。对于不熟悉dnsmasq-metrics容器的用户，它将对同一容器中的dnsmasq容器执行DNS查找，以获取dnsmasq统计信息。如果无法通过DNS查找来检索dnsmasq统计信息，则认为执行DNS查找的服务可能会遇到相同的问题似乎是合乎逻辑的。

值得注意的是，在这些问题期间，我们没有看到来自dnsmasq的以下日志，这使我相信我们没有达到此阈值。

dnsmasq: Maximum number of concurrent DNS queries reached (max: 150)

我非常有信心，我们当前的DNS错误与dnsmasq间歇性拒绝连接有关。我很好奇，如果其他用户在kube-dns pod从dnsmasq-metrics记录错误的情况下看到相同的问题，并且在同一时间范围内从群集中的应用程序记录了DNS错误。

此外，如果有人对下一步该如何做有任何想法，以确切了解dnsmasq拒绝连接的情况。我在考虑在 Debug模式下运行dnsmasq是否有用，但我担心还会引入其他与在 Debug模式下运行有关的问题。我们正在考虑的其他选项正在缓慢推出CoreDNS( https://github.com/coredns/coredns)。

最佳答案

您提供了很多群集域。每个群集域都将插入到本地/etc/resolv.conf中并使用。对于resolv.conf中的每个域，将有单独的dns请求。在您的情况下，每个dns查询将有10个以上的dns查询。
--address=/com.cluster.local/com.svc.cluster.local/com.kube-system.svc.cluster.local/<ourdomain>.com.cluster.local/<ourdomain>.com.svc.cluster.local/<ourdomain>.com.kube-system.svc.cluster.local/com.ec2.internal/ec2.internal.kube-system.svc.cluster.local/ec2.internal.svc.cluster.local/ec2.internal.cluster.local/
我的建议是将群集域的数量减少到cluster.local。

您提供多个群集域的原因是什么？

关于kubernetes - Kube-dns-间歇性名称解析错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44030167/

30

4

0

文章推荐： kubernetes - 执行 Helm 图CLI的编程方法

文章推荐： logging - kubernetes/var/logs/不断增长

dns - 如何解析本地未找到但存在于另一台 DNS 服务器上的同一区域的 DNS 名称？
我需要为一系列 Linux 容器运行本地 BIND DNS 服务器。假设区域是 example.com 我的基础架构中已经有一个 example.com 域，我想使用我的本地 DNS 服务器覆盖一些记
dns - 谷歌云 DNS 或谷歌公共(public) DNS
当“Google Public DNS”免费时，为什么要使用“Google Cloud DNS”？如何设置 DNS/名称服务器以指向计算引擎: 1. 将您的域注册器(在我的情况下为 GoDaddy.
dns - DNS A记录延迟的原因
我有一些主机在 EC2 中按需出现，当它们执行启动它们的服务时，它们会在现有区域下的 Route53 中创建一条 A 记录。 A 记录的格式为:randomid.example.com。所以它不是现有
dns - 子域和 DNS
我目前拥有自己的域名和专用服务器，并且为我的客户提供不同的软件包。我希望能够做的是让他们在我的网站上注册并自动创建一个包，他们可以通过他们的用户名作为子域进行访问，例如 http://youruser
dns - 仅一级子域的通配符 DNS
我想知道如何只为一级子域设置通配符 DNS，示例: user.example.com // valid www.user.example.com // invalid 我的 BIND 区域域配
dns - 比较两个不同名称服务器上的 DNS
我正在努力将我的域的名称服务器切换到新的 DNS 服务。将新设置与现有 DNS 设置进行比较的最佳工具是什么。我尝试使用带有和不带有 @nameserver 的 dig 来确保 DNS 记录在新旧
dns - 程序化 DNS
我是一名长期开发人员，但对 DNS 的经验并不丰富。这是我的问题: 我们的应用程序在 Amazon EC2 上为客户启动服务器。一个客户希望为每台启动的服务器使用自定义 DNS，而不是 AWS 提供的
dns - DNS RFC允许将根域CNAME转换为其他域吗？
Closed. This question is off-topic。它当前不接受答案。想改善这个问题吗？ Update the question，所以它是用于堆栈溢出的on-topic。 9年前关
dns - DNS 名称的最大长度是多少
我看到几个提到 DNS 名称(域名)的最大字符串长度为 253 个字符。维基百科似乎指的是这篇旧博文: https://en.wikipedia.org/wiki/Hostname http://bl
dns - Squid 可以将 DNS 查询转发到 DNS 服务器吗？
这可能是完全不可能实现的，但在我尝试之前，我想我可能会从一位极客那里得到一些建议。 Squid 也会代理 DNS 查询吗？我想转发DNS查询以通过squid并使用squid的DNS错误页面，当然是通过
dns - DNS 查找的理想超时时间
在我的 Rails 应用程序中，我使用 ruby 库 resolv 进行 nslookup。如果输入像 dgdfgdfgdfg.com 这样的网站，则说明时间太长而无法解决。在某些情况下，例如 2
dns - 浏览器无法在持久连接上重新协商 DNS
我正在研究一个带有每 5 秒刷新一次(轮询)的实时仪表板(Angular Web 应用程序)的场景。 API 位于 Azure 流量管理器之后，如果主要区域发生故障，它将故障转移到第二个区域。请记住，
dns - java 应用程序中主机的前向和后向 DNS 条目如何匹配，使其免受 DNS 欺骗
我正在使用 fortify，它显示了攻击者可以在我尝试在 java 应用程序中获取主机名时进行 DNS 欺骗的漏洞。我有一个解决方案，通过匹配正向 DNS 和反向 DNS 条目可以避免这种情况。但它有
azure - 我的域的 DNS 记录未通过 dns-01 质询在 azure-dns 上传播
我正在尝试使用 cert-manager 为我的 istio-ingress-gateway 订购证书。为此，我在 AKS 上的 kubernetes 集群 (1.13.7) 上安装了 istio (
dns - 如何让 DNS 从本地主机解析与从远程主机解析相同的内容？
我正在尝试创建一个家庭自动化系统，它可以在我工作的白天照看我的狗。我在这个项目中的目标是学习一些关于 DNS、文件服务和 RaspberryPi 的知识。我的硬件设置是这样的: 1 个 Raspbe
dns - 如何远程管理 DNS 服务器？
我想在一台服务器上创建一个 Web 界面，以管理另一台服务器上的几个 dns 服务器。如何以编程方式远程管理绑定(bind) dns 服务器？我想添加/编辑/删除区域。我看到有 rndc，但它只
dns - DNS 传播是否依赖于 TTL？
我对 TTL 和传播时间的概念有点困惑，我想澄清一些我没有设法在网上找到具体答案的事情。 AFAIK，TTL(生存时间)表示世界各地的服务器更新特定 DNS 的缓存值所需的(最高)时间。所以...
dns - Kubernetes DNS 失败
我正在尝试学习 kubernetes，并且我已成功在裸机上设置集群(1 节点)、部署服务并通过入口公开它。我尝试实现 traefik，以获取 Lets 加密证书，但我无法使其工作，并且在调试时我注意
dns - 您将如何使用 DNS 自动创建子域？
我想以编程方式自动更新我的 DNS 多个域。我在 GoDaddy 上运行 BIND 服务器(在 FreeBSD 上)以及主机域和 DNS。我找不到供 GoDaddy 访问和更新他们托管的 DNS 的
dns - 捕获 DNS 泄漏
我正在尝试记录 DNS“泄漏”，换句话说，我网站的访问者使用的 DNS 服务器。如何确定网络请求来自哪个 DNS 服务器到我的服务器(即获取 DNS 泄漏)。本站 dnsleaktest.com是吗

首页

博学

6Ren·AI

商城

kubernetes - Kube-dns-间歇性名称解析错误