Redis Sentinel 和 fix-slave-config : Redis node is getting set as slave of two masters when it should not be-6ren

Redis Sentinel 和 fix-slave-config : Redis node is getting set as slave of two masters when it should not be

转载作者：可可西里更新时间：2023-11-01 11:36:14

我正在尝试在大型 redis 队列中使用哨兵进行故障转移(12 个哨兵，500 多个分片，每个分片一个主站和一个从站)。我遇到了一个非常奇怪的问题，我的哨兵反复向某些 redis 节点发出命令 +fix-slave-config。我没有注意到这种情况发生在较小的规模上，因为它是值得的。

我注意到两个具体问题:

+fix-slave-config 消息，如上所述
sentinel.conf 显示某些 slave 有两个 master(他们应该只有一个)

处于起始状态的舰队有一个特定的从属节点 XXX.XXX.XXX.177 和一个主节点 XXX.XXX.XXX.244(它们一起构成舰队中的分片 188)。在没有任何节点中断的情况下，slave 的 master 切换到 XXX.XXX.XXX.96(分片 188 的 master)然后返回，然后再返回。这是通过 sshing 进入从节点和主节点并检查 redis-cli 信息来验证的。所有 Redis 节点都以正确的配置启动。所有 Sentinel 节点在它们的 sentinel.conf 中都有正确的配置。当我在每次从属-> 主更改后查询它们时，每个 Sentinel 都有完全相同的主列表。

在我的 12 个哨兵中，记录了以下内容。每分钟都会发送一条 +fix-slave-config 消息:

Sentinel #8: 20096:X 22 Oct 01:41:49.793 * +fix-slave-config slave XXX.XXX.XXX.177:6379 XXX.XXX.XXX.177 6379 @ shard-188 XXX.XXX.XXX.96 6379
Sentinel #1: 9832:X 22 Oct 01:42:50.795 * +fix-slave-config slave XXX.XXX.XXX.177:6379 XXX.XXX.XXX.177 6379 @ shard-172 XXX.XXX.XXX.244 6379
Sentinel #6: 20528:X 22 Oct 01:43:52.458 * +fix-slave-config slave XXX.XXX.XXX.177:6379 XXX.XXX.XXX.177 6379 @ shard-188 XXX.XXX.XXX.96 6379
Sentinel #10: 20650:X 22 Oct 01:43:52.464 * +fix-slave-config slave XXX.XXX.XXX.177:6379 XXX.XXX.XXX.177 6379 @ shard-188 XXX.XXX.XXX.96 6379
Sentinel #2: 20838:X 22 Oct 01:44:53.489 * +fix-slave-config slave XXX.XXX.XXX.177:6379 XXX.XXX.XXX.177 6379 @ shard-172 XXX.XXX.XXX.244 6379

这是 SENTINEL MASTERS 命令的输出。奇怪的是，shard-188 有两个从属，而实际上它应该只有 1 个。当 XXX.XXX.XXX.177 在 shard-172 和 shard-182 下时，输出看起来是一样的。

案例 1)XXX.XXX.XXX.244 是 XXX.XXX.XXX.177 的主人

183)  1) "name"
      2) "shard-172"
      3) "ip"
      4) "XXX.XXX.XXX.244"
      5) "port"
      6) "6379"
      7) "runid"
      8) "ca02da1f0002a25a880e6765aed306b1857ae2f7"
      9) "flags"
     10) "master"
     11) "pending-commands"
     12) "0"
     13) "last-ping-sent"
     14) "0"
     15) "last-ok-ping-reply"
     16) "14"
     17) "last-ping-reply"
     18) "14"
     19) "down-after-milliseconds"
     20) "30000"
     21) "info-refresh"
     22) "5636"
     23) "role-reported"
     24) "master"
     25) "role-reported-time"
     26) "17154406"
     27) "config-epoch"
     28) "0"
     29) "num-slaves"
     30) "1"
     31) "num-other-sentinels"
     32) "12"
     33) "quorum"
     34) "7"
     35) "failover-timeout"
     36) "60000"
     37) "parallel-syncs"
     38) "1"
72)  1) "name"
      2) "shard-188"
      3) "ip"
      4) "XXX.XXX.XXX.96"
      5) "port"
      6) "6379"
      7) "runid"
      8) "95cd3a457ef71fc91ff1a1c5a6d5d4496b266167"
      9) "flags"
     10) "master"
     11) "pending-commands"
     12) "0"
     13) "last-ping-sent"
     14) "0"
     15) "last-ok-ping-reply"
     16) "927"
     17) "last-ping-reply"
     18) "927"
     19) "down-after-milliseconds"
     20) "30000"
     21) "info-refresh"
     22) "5333"
     23) "role-reported"
     24) "master"
     25) "role-reported-time"
     26) "17154312"
     27) "config-epoch"
     28) "0"
     29) "num-slaves"
     30) "2"
     31) "num-other-sentinels"
     32) "12"
     33) "quorum"
     34) "7"
     35) "failover-timeout"
     36) "60000"
     37) "parallel-syncs"
     38) "1"

案例 2)XXX.XXX.XXX.96 是 XXX.XXX.XXX.177 的主人

79)  1) "name"
      2) "shard-172"
      3) "ip"
      4) "XXX.XXX.XXX.244"
      5) "port"
      6) "6379"
      7) "runid"
      8) "ca02da1f0002a25a880e6765aed306b1857ae2f7"
      9) "flags"
     10) "master"
     11) "pending-commands"
     12) "0"
     13) "last-ping-sent"
     14) "0"
     15) "last-ok-ping-reply"
     16) "1012"
     17) "last-ping-reply"
     18) "1012"
     19) "down-after-milliseconds"
     20) "30000"
     21) "info-refresh"
     22) "1261"
     23) "role-reported"
     24) "master"
     25) "role-reported-time"
     26) "17059720"
     27) "config-epoch"
     28) "0"
     29) "num-slaves"
     30) "1"
     31) "num-other-sentinels"
     32) "12"
     33) "quorum"
     34) "7"
     35) "failover-timeout"
     36) "60000"
     37) "parallel-syncs"
     38) "1"
273)  1) "name"
      2) "shard-188"
      3) "ip"
      4) "XXX.XXX.XXX.96"
      5) "port"
      6) "6379"
      7) "runid"
      8) "95cd3a457ef71fc91ff1a1c5a6d5d4496b266167"
      9) "flags"
     10) "master"
     11) "pending-commands"
     12) "0"
     13) "last-ping-sent"
     14) "0"
     15) "last-ok-ping-reply"
     16) "886"
     17) "last-ping-reply"
     18) "886"
     19) "down-after-milliseconds"
     20) "30000"
     21) "info-refresh"
     22) "5762"
     23) "role-reported"
     24) "master"
     25) "role-reported-time"
     26) "17059758"
     27) "config-epoch"
     28) "0"
     29) "num-slaves"
     30) "2"
     31) "num-other-sentinels"
     32) "12"
     33) "quorum"
     34) "7"
     35) "failover-timeout"
     36) "60000"
     37) "parallel-syncs"
     38) "1"

每个哨兵的起始 sentinel.conf 是

maxclients 20000
loglevel notice
logfile "/home/redis/logs/sentinel.log"
sentinel monitor shard-172 redis-b-172  7
sentinel down-after-milliseconds shard-172 30000
sentinel failover-timeout shard-172 60000
sentinel parallel-syncs shard-172 1
....
sentinel monitor shard-188 redis-b-188  7
sentinel down-after-milliseconds shard-188 30000
sentinel failover-timeout shard-188 60000
sentinel parallel-syncs shard-188 1

这是几分钟后生成的 sentinel.conf(针对所有哨兵)——注意两个从属:

sentinel monitor shard-172 XXX.XXX.XXX.244 6379 7
sentinel failover-timeout shard-172 60000
sentinel config-epoch shard-172 0
sentinel leader-epoch shard-172 0
sentinel known-slave shard-172 XXX.XXX.XXX.177 6379 <--- True slave of shard-172
sentinel known-sentinel shard-172 ...
...
sentinel monitor shard-188 XXX.XXX.XXX.96 6379 7
sentinel failover-timeout shard-188 60000
sentinel config-epoch shard-188 0
sentinel leader-epoch shard-188 0
sentinel known-slave shard-188 XXX.XXX.XXX.194 6379 <--- True slave of shard-188
sentinel known-slave shard-188 XXX.XXX.XXX.177 6379
sentinel known-sentinel shard-188 ...

最佳答案

这就是我所说的“ Ant 问题”:你有两个(或更多)pod(主+从)混合在一起。当您显示您的一个 pod 有多个从属时，您就表明了这一点。

具体来说:

Here's the output of the SENTINEL MASTERS command. The strange thing is that shard-188 has two slaves, when in fact it should only have 1.

你需要做的是:

通过 sentinel remove shard-NNN
将那些 slave 所在的 pod 放下
正确配置它们(正确的 slaveof 命令/配置)
让他们重新上线
确保他们每个人只有一个正确的奴隶
通过 sentinel monitor ...

现在从技术上讲，您可以使用 sentinel reset 命令，但您将面临潜在的计时问题，因此从 Sentinel 中删除它们是必经之路。您可以选择离开主/从并简单地适本地重新配置从属。如果您走那条路线，请等待几分钟并在进入第 6 步之前检查从属列表。

关于Redis Sentinel 和 fix-slave-config : Redis node is getting set as slave of two masters when it should not be，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33272150/

文章推荐： node.js - 与 radislabs memcached 云的紧密连接

文章推荐： heroku - 如何找到 Heroku 的 Redis 附加版本的版本？

文章推荐： redis - 按特定值对 Redis 记录进行排序

文章推荐： php - 从 php 调用外部 Web API 的最佳方式

redis - Redis 服务器崩溃时如何接收 Redis 发布消息
我有一个关于 Redis Pubsub 的练习，如下所示: 如果发布者发布消息但订阅者没有收到服务器崩溃。订阅者如何在重启服务器时收到该消息？请帮帮我，谢谢! 最佳答案在这种情况下，消息将永远消失
redis - Redis 服务器重启后服务堆栈 Redis 重新连接
我们正在使用 Service Stack 的 RedisClient 的 BlockingDequeue 来保存一些数据，直到它可以被处理。调用代码看起来像 using (var client =
redis - 如何让一个 Redis 客户端等待所有其他 Redis 客户端响应？
我有一个 Redis 服务器和多个 Redis 客户端。每个 Redis 客户端都是一个 WebSocket+HTTP 服务器，其中包括管理 WebSocket 连接。这些 WebSocket+HTT
redis - 将数据从 Redis 独立实例移动到 Redis 集群
我有多个 Redis 实例。我使用不同的端口创建了一个集群。现在我想将数据从预先存在的 redis 实例传输到集群。我知道如何将数据从一个实例传输到集群，但是当实例多于一个时，我无法做到这一点。最佳
redis - 使用 Redis 集群自动故障转移到提升的 Redis Slave
配置:三个redis集群分区，跨三组一主一从。当 Master 宕机时，Lettuce 会立即检测到中断并开始重试。但是，Lettuce 没有检测到关联的 slave 已经将自己提升为 master
redis - 如何删除存储在给定 Redis 集中的 Redis 键？
我想根据从指定集合中检索这些键来删除 Redis 键(及其数据集)，例如: HMSET id:1 password 123 category milk HMSET id:2 password 456
redis - 有没有办法从 redis 获取所有禁用的 redis 命令的列表？
我正在编写一个机器人(其中包含要禁用的命令列表)，用于监视 Redis。它通过执行禁用命令，例如 (rename-command ZADD "")当我重新启动我的机器人时，如果要禁用的命令列表发生变化
redis - Redis(redis-py)可以处理多少个 channel ？
我的任务是为大量听众使用发布/订阅。这是来自 docs 的订阅的简化示例: r = redis.StrictRedis(...) p = r.pubsub() p.subscribe('my-firs
redis - 1 Redis 哨兵与多个 Redis 哨兵？
我一直在阅读有关使用 Redis 哨兵进行故障转移的内容。我打算有1个master+1个slave，如果master宕机超过1分钟，就把slave变成master。我知道这在 Sentinel 中是
redis - 分片常规 Redis 与 Redis 集群
与仅使用常规 Redis 和创建分片相比，使用 Redis 集群有哪些优势？在我看来，Redis Cluster 更注重数据安全(让主从架构解决故障)。最佳答案我认为当您需要在不丢失任何数据的情
redis - 即使 Redis key 已过期(但仍存在于 Redis 中)，是否可以获得 Redis key ？
由于 Redis 以被动和主动方式使 key 过期，有没有办法得到一个 key ，即使它的过期时间已过 (但在 Redis 中仍然存在 )？最佳答案 DEBUG OBJECT myKey 将返回
redis - 如何在 redis lua 脚本中运行 redis monitor 命令而不是 redis-cli monitor
我想用redis lua来实现monitor命令，而不是redis-cli monitor。但我不知道怎么办。 redis.call('monitor') 不起作用。最佳答案您不能从 Redis
redis - :Redis Replicated setup, Redis Cluster setup Redis Sentinel setup 和 Redis with Master with Slave only 有什么区别？[REDISSON]
我读过 https://github.com/redisson/redisson 我发现有几个 Redis 复制设置(包括对 AWS ElastiCache 和 Azure Redis 缓存的支持)
redis - Microsoft.AspNet.SignalR.Redis 需要 StackExchange.Redis.StrongName，但是 StackExchange.Redis.Extensions.Core 需要 StackExchange.Redis
Microsoft.AspNet.SignalR.Redis 和 StackExchange.Redis.Extensions.Core 在同一个项目中使用。前者需要StackExchange.Red
【Redis】Redis 安装启动使用流程
1. 认识 Redis Redis（Remote Dictionary Server）远程词典服务器，是一个基于内存的键值对型 NoSQL 数据库。特征：键值（key-value）型，value
【Redis】Redis 数据结构介绍
1. Redis 数据结构介绍 Redis 是一个 key-value 的数据库，key 一般是 String 类型，但 value 类型多种多样，下面就举了几个例子： value 类型示例 Str
【Redis】Redis 的缓存使用技巧（商户查询缓存）
1. 什么是缓存缓存（Cache）就是数据交换的缓冲区，是存贮数据的临时地方，一般读写性能较高。缓存的作用：降低后端负载提高读写效率，降低响应时间缓存的成本：数据一致性成本代码维护成本
redis - redis:使用joblib批量插入
我有一份记录 list 。对于我的每条记录，我都需要进行一些繁重的计算，因为我要在Redis中创建反向索引。为了达到到达记录，需要在管道中执行多个redis命令(sadd为100 s + set为1
redis - Redis Multi哨兵失败后不选举新的Redis主机
我有一个三节点Redis和3节点哨兵，一切正常，所有主服务器和从属服务器都经过验证，并且哨兵配置文件已与所有Redis和哨兵节点一起更新，但是问题是当Redis主服务器关闭并且哨兵希望选举失败者时再次
redis - Redis:如何计算已排序列表时间序列中的时间差？
我正在尝试计算Redis中存储的消息之间的响应时间。但是我不知道该怎么做。首先，我必须像这样存储chat_messages的时间流 ZADD conversation:CONVERSATION_ID

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Redis Sentinel 和 fix-slave-config : Redis node is getting set as slave of two masters when it should not be