docker - Docker集群模式负载均衡无法按说明工作-6ren

docker - Docker集群模式负载均衡无法按说明工作

转载作者：行者123 更新时间：2023-12-02 18:16:08

25

4

更新资料

我相信罪魁祸首是似乎没有在端口7946上侦听的主服务器。netstat显示7946在节点上侦听，但不是主机。当我检查节点的系统日志时，我看到以下错误

level=error msg="Failed to join memberlist [10.0.0.12] on retry: 1 error(s) occurred:\n\n* Failed to join 10.0.0.12: dial tcp 10.0.0.12:7946: getsockopt: connection refused"

原始帖子

我正在AWS中运行一个三节点的Swarm Mode集群;一位主人和两名 worker 。这是 swarm模式，请勿与1.12之前的 docker swarm 混淆。

我使用docker-machine创建了所有服务。每台机器都运行带有Docker 1.12.3的Ubuntu 15.10。

Linux swarm-master-01 4.2.0-42-generic #49-Ubuntu SMP Tue Jun 28 21:26:26 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux

使用主节点，我创建了以下服务

docker service create --replicas 1 --name myapp -p 3000 myapp

当我运行 docker service ps myapp时，我得到以下输出

ID                         NAME     IMAGE         NODE             DESIRED STATE  CURRENT STATE            ERROR
02awst8p9pezgpkfzqgz8z79t  myapp.1  myapp:latest  swarm-node-01    Running        Running 19 minutes ago

正在运行的任务已部署到swarm-node-01。

我检查了已公开发布的自动选择的端口

$ docker service inspect myapp | jq .[].Endpoint.Ports[].PublishedPort
30000

根据 documentation:

External components, such as cloud load balancers, can access the service on the PublishedPort of any node in the cluster whether or not the node is currently running the task for the service. All nodes in the swarm route ingress connections to a running task instance.

但是，当我尝试 curl 没有运行任务的节点时，我得到的是 connection refused。

$ curl $(docker-machine ip swarm-node-01):30000/stats
{"uptime":"2016-11-09T14:48:35Z","requestCount":7,"statuses":{"200":7},"pid":1,"open_db_conns":0}

$ curl $(docker-machine ip swarm-node-02):30000/stats
curl: (7) Failed to connect to [the IP] port 30000: Connection refused

注意:我清理了节点02 的IP

我的故障排除:

节点均正确连接到群集

将服务扩展到5(本质上将任务部署到每个节点)可以使curl在每个节点上工作，因为任务已部署到每个节点。

更新1

我用初始化了群

docker swarm init --advertise-addr 10.0.0.12:2377 --listen-addr 10.0.0.12:2377

我从节点检查了系统日志，并看到以下错误

level=error msg="Failed to join memberlist [10.0.0.12] on retry: 1 error(s) occurred:\n\n* Failed to join 10.0.0.12: dial tcp 10.0.0.12:7946: getsockopt: connection refused"

我检查了一下入口端口是否正在侦听，似乎不是

ubuntu@swarm-master-01:~$ sudo lsof -i :7946
ubuntu@swarm-master-01:~$ cat < /dev/tcp/10.0.0.12/7946
-bash: connect: Connection refused
-bash: /dev/tcp/10.0.0.12/7946: Connection refused
ubuntu@swarm-master-01:~$ cat < /dev/tcp/0.0.0.0/7946
-bash: connect: Connection refused
-bash: /dev/tcp/0.0.0.0/7946: Connection refused

最佳答案

我现在可以解决该问题，但是我不知道最初是什么原因引起的。覆盖网络(端口7946)未在swarm-master-01上监听。我用netstat -nlt弄清楚了。我搜索了系统日志，发现这些错误与系统日志中的端口有关。

Nov  8 20:28:20 ubuntu docker[23092]: time="2016-11-08T20:28:20.171385360Z" level=warning msg="2016/11/08 20:28:20 [ERR] memberlist: Failed TCP fallback ping: read tcp 10.0.0.85:54016->10.0.0.13:7946: i/o timeout"
Nov  9 18:26:17 swarm-node-01 docker[714]: time="2016-11-09T18:26:17.573441271Z" level=warning msg="2016/11/09 18:26:17 [ERR] memberlist: Failed to send indirect ping: write udp [::]:7946->10.0.0.38:7946: use of closed network connection"

出于某种原因， docker 拒绝打开此端口并继续监听。这是我为避免问题而做的(尽管不希望这样做):

使用docker-machine创建了另一个名为swarm-master-02的节点

作为主

将swarm-master-02加入集群

降级的master-01，将master-02设置为领导者

在每个节点上重新启动docker守护程序(可能没有必要)

现在，除了swarm-master-01以外，所有机器都按预期工作。一个任务正在swarm-node-01上运行，并且curl通过将流量转发到适当节点上的适当容器来对所有节点起作用。但是，swarm-master-01拒绝在覆盖网络上侦听，并且curl无法对此节点起作用。我只能通过将swarm-master-01从集群中完全删除，重新启动docker守护程序并再次将其作为主服务器来修复它。现在7946正在该机器上监听。

关于docker - Docker集群模式负载均衡无法按说明工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40510437/

25

4

0

文章推荐： nginx - Docker jwilder/nginx-proxy位置配置

文章推荐： docker - 让 TeamCity 在 Docker 上运行

文章推荐： docker - 当一行太长时，如何设置 busybox vi 自动换行？

文章推荐： ruby - Bundler无法看到在dockerized环境中安装的gem

Jquery 说明 >*
我正在查看预先重写的 jQuery 代码。我无法理解以下代码。 $('body > *:not(#print-modal):not(script)').clone(); 最佳答案此选择器匹配以下任何
MySQL 说明
所以我开始学习MySQL，我对表有点困惑，所以我想澄清一下。数据库中可以有多个表吗？例如: Database1 -Table1 -Username -Password -Table2 -Name
PostgreSQL 说明
我在 PostgreSQL 中编写了一个函数，其代码如下: for (i = 0; i str[0][i]); values[i] = datumCopy(dat_value,
PostgreSQL中的OID和XID 说明
oid：行的对象标识符（对象 ID）。这个字段只有在创建表的时候使用了 WITH OIDS ，或者是设置了default_with_oids 配置参数时出现。这个字段的类型是 oid （和字段同
android - 附近连接最大连接设备 - 说明
我在搜索最大连接设备数时发现了 a post大致说: 当使用 P2P_STAR 时，最大设备数量为 10，因为此 topoly 使用 Wi-Fi 热点。也就是说，如果您没有路由器。这让我问了两个问题
ocaml sprintf 说明
我不明白为什么会这样: Printf.sprintf "%08s" "s" = Printf.sprintf "%8s" "s" - : bool = true 换句话说，我希望: Printf.sp
Grails addTo* 说明
我正在遵循 Grails in Action 中的示例。我有一个问题，如何理解 addTo*()功能有效。我有一个简单的域:具有以下关系的用户、帖子、标签: 用户1对M发帖用户一对一标签发布 M
C# OOPS 说明
请问为什么行 "b[0]= new Child2();"在运行时而不是在编译时失败。请不要检查语法，我只是在这里做了 class Base {} class Child1 : Base {} clas
sockets - 创建RAW套接字教程/说明？
所以我想进一步加深我对套接字的理解，但是我想首先从最低级别开始(在C语言中，而不是在汇编中大声笑) 但是，我处理的大多数站点都使用SOCK_STREAM或SOCK_DGRAM。但是我已经阅读了Beej
处理空值的 JavaScript 说明
好吧，我对 javascript 语法了解甚少，而且我对 null 的行为感到非常困惑。关于空值有很多讨论，但我似乎无法找出问题所在!请帮我。这是脚本。 var jsonData = '';
javascript - 说明【随机列表】
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭5 年前。 Improve thi
java - 幂和阶乘级数和说明
问题: SeriesSum 类旨在计算以下系列的总和: 类名:SeriesSum 数据成员/实例变量: x:存储整数 n:存储术语数量 sum:用于存储系列总和的双变量成员函数: SeriesSum
java - 作业概览说明
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
java - endAllStagingAnimators 说明
今天我在 logcat 中注意到以下内容: D/OpenGLRenderer:0xa2c70600 (CardView) 上的 endAllStagingAnimators，句柄为 0xa2c9d35
java - 说明数组列表
如何创建值有序对的列表，例如list1 [(x, y), (x1, y1) ...].?? 学习如何创建此列表后，我需要知道如何将 x 值提供给列表中的用户输入并搜索 x 的下一个值并显示有序对 (x
SQL - 说明 - ISNULL()
我在存储过程中有以下逻辑。这里完成了什么？如果color为null，替换为'' IF ISNULL(@color, '') <> '' BEGIN END 最佳答案它等同于: IF (@colo
.net接口(interface)说明
我知道.Net中的接口(interface)定义了接口(interface)和继承它的类之间的契约。刚刚完成了一个大量使用数据访问层接口(interface)的项目，这让我开始思考。 . .有什么大不
c# - OOP 说明
如何防止基类方法被子类覆盖最佳答案您不需要做任何特别的事情:默认情况下方法是不可覆盖的。相反，如果您希望该方法可重写，则必须将 virtual 关键字添加到其声明中。但是请注意，即使方法不可重写
java - 工厂模式设计——说明
我已阅读以下有关工厂模式的文章 here 请仅引用Class Registration - avoiding reflection这一部分。这个版本在没有反射的情况下实现了工厂和具体产品之间的减少耦
java - For-Each 循环替代方案 - 说明
我正在学习 Java 类(class)，但无法完全理解下一课的内容。目的:本课的目的是通过创建一个模拟 for-each 循环如何工作的替代方案来解释 for-each 循环的工作方式。在上一课中

首页

博学

6Ren·AI

商城

docker - Docker集群模式负载均衡无法按说明工作