gpt4 book ai didi

linux - 使用 MDEV-17458 将 galera 集群更新到 10.3.15

转载 作者:太空宇宙 更新时间:2023-11-04 05:09:32 24 4
gpt4 key购买 nike

我刚刚将 mariadb/galera-cluster 更新到数据库版本 10.3.15。如果没有至少 2 个节点,它就无法正常工作,但是尝试启动第一个节点之后的任何节点都会遇到奇怪的错误消息,例如: 。

0 [Warning] WSREP: SST position can't be set in past. Requested: 0, Current:  14422308.
0 [Warning] WSREP: Can't continue.

此错误可能与以下内容相关:

https://jira.mariadb.org/browse/MDEV-17458?attachmentViewMode=list

但是,我注意到一个特点:请求的状态是 0,很可能是因为它在途中的某个地方丢失了,或者因为我遇到了完全不同的问题。

我也知道它应该是什么:它认为是“当前”的值。换句话说,现实与该节点认为的完全相反:“当前”应该是0,“请求”应该是14422308

在相关问题中:

https://jira.mariadb.org/browse/MDEV-19193

有人临时评论说删除一些文件以便从原始案例开始,但并不清楚到底在哪里做什么。

我不介意从一个节点上的数据开始,忽略其他节点上的所有内容并复制所有内容。

我尝试从有问题的节点中删除以下文件。 (我相信他们提到的数据目录在大多数 Linux 系统上是 /var/lib/mysql/):

galera.cache
ib_logfile0
ib_logfile1

这没有效果。

有人提出这个问题:Unable to complete SST transfer due to "WSREP: SST position can't be set in past." error 建议更改仍然可以的节点上的 SST 编号。但这行不通:如果我使用“galera_new_cluster”脚本,我只能启动该节点,该脚本会将其 SST 编号重置为“-1”,无论它是什么。如果我正常启动它,我会收到如下错误:

[ERROR] WSREP: wsrep::connect(gcomm://<IP1>,<IP2>,<IP3>,...) failed: 7

换句话说,没有足够的其他在线节点来加入集群。那么,为了更改主节点上的SST,另一个节点需要在线,但是为了启动另一个节点,我需要更改主节点上的SST?第22条军规,行不通。

很高兴他们修复了该错误,但是我如何修复现在损坏的集群?

我问自己的另一个问题是:这个“SST 编号”14422308 是否源自尝试重新加入集群的节点,或者是从集群中检索的?显然,第二件事是正确的,因为即使从头开始完全重新安装辅助节点并尝试重新加入集群也无法解决问题。完全相同的错误消息仍然存在。

最佳答案

不知何故,集群似乎对其自身状态感到困惑。每个同步步骤中的JOINER 节点认为它们比DONOR 节点具有更高级的状态。

解决这个问题的方法是欺骗集群;强制其将某个节点识别为“更高级”。

假设我们可以识别出一个拥有完整集群数据的节点。将此表示为“第一个节点”。选择一个节点作为第二个节点,一个作为第三个节点,等等(这些选择可以是随机的)。

然后,停止所有节点上的 mysql。编辑集群的配置文件并更改每个节点上“wsrep_cluster_address”的值。应该是这样的:

+------+---------------------------+
| Node | wsrep_cluster_address |
+------+---------------------------+
| 1 | gcomm:// |
| 2 | gcomm://<IP1>,<IP2> |
| 3 | gcomm://<IP1>,<IP2>,<IP3> |
+------+---------------------------+

(对于集群中的第四个和任何其他节点,该模式继续如此)。

现在从除第一个节点之外的节点中删除所有缓存数据。这些是文件:

ib_logfile*
grastate.dat
gvwstate.dat
galera.cache

位于mysql安装的数据目录中。 (例如;debian 系统上的 /var/lib/mysql/)。

然后编辑节点 #1 上的“grastate.dat”文件。在我们的示例中,集群迄今看到的最高级状态是 14422308。因此将其设置为 14422309 (或:旧状态 + 1)。还要在所有节点上将 safe_to_bootstrap 设置为 0(这样我们就不会意外地尝试引导并丢失 seqno,再次遇到相同的错误)。

现在在节点 #1 上启动 mysql(例如,通过 systemd:systemctl start mysql)。运行后,在节点 #2 上执行相同的操作。等待所有数据传输(这可能需要一段时间,具体取决于节点间连接速度和相关数据库的大小),然后对节点 3 和任何其他节点重复此操作。

然后,将每个配置中的 wsrep_cluster_address 值恢复为应有的值(等于最后一个节点的值)。

关于linux - 使用 MDEV-17458 将 galera 集群更新到 10.3.15,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57185352/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com