- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章线上环境大规模RocketMQ集群不停机优雅升级实践由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
RocketMQ集群的升级方案、落地实施就自然而然的落到了我的头上,本文不仅要介绍一下笔者是如何升级的,更想展示作为一名架构师,处理这些问题的方法论,展示大厂架构师的工作日常.
温馨提示:关于ACL相关的内容,后续文章会单独分享从4.1.0版本升级到4.8并开启ACL的曲折经历.
。
说来惭愧,作为RocketMQ社区优秀布道师,笔者所在公司的RocketMQ服务端版本竟然还是4.1.0,RocketMQ在4.4.0版本之前是不支持ACL(访问控制),对应生产环境中任意一台机器都可以订阅任意topic,在任意一台生产应用服务器都可以安装一个rocketmq-console,从而控制整个集群,拥有删除主题、删除消费组的权限,想想是不是后背发凉. 。
。
2.1 确定升级到的版本 。
翻开RocketMQ升级日志,RocketMQ在4.4.0版本正式引入了ACL机制,故版本至少要升级到4.4.0,在业界使用开源版本有一个不成文的规则:通常不要使用最新的版本,不要充当小白鼠.
但RocketMQ可以算是一个特殊.
通过仔细浏览RocketMQ的版本变更记录,我们不难发现RocketMQ Client 相关的变更非常少,即与用户关系紧密的消息发送、消息消费这块的代码非常的稳定,理论上基本不存在兼容性问题。并且每一个版本都修复了一些重大的BUG,性能提升也比较明显,故笔者这次决定“冒天下之大不韪”,决定将帮升级到最新版本4.8.0.
在这里在啰嗦一些,简单介绍一下RocketMQ几个具有里程杯意义的版本.
2.2 升级思路 。
版本升级的基本要求:业务不能停机,即要做到对业务无感知的升级.
如果机器足够的备用机器,最佳的版本迁移方案应该是先扩容再缩容,其示例图如下:
其主要的思路是先对Broker进行扩容,加入两台高版本的Broker服务器,加入到集群中,然后关闭低版本Broker的写权限,待消息过期后,将低版本移除,最后升级NameServer,完成不停机的在线迁移.
由于此次升级需要在半个月左右的时间内将RocketMQ集群所有的节点全部升级,无法提供这么多冷备节点,故先扩容、再缩容无法满足本次需求,本次只能基于已有的机器进行升级.
能否直接升级Broker端代码,但高版本的Broker直接使用低版本的Broker存储目录,即直接升级软件,其示例图如下:
核心思想是先停止老版本的Broker,然后使用新版本启动Broker,但使用旧的配置文件.
有了思路,接下来就是要验证方案的可行性.
2.3 方案验证 。
理论归理论,在生产环境做任何变更之前,必须有充分的测试验证,版本升级重点需要验证兼容性问题.
2.2.1 服务端版本兼容性验证 。
搭建一个上述MQ集群,其核心要点:
通过rocketmq-console,去创建多个个topic,看看其路由信息是否正确,经验证,符合预期.
2.2.2 客户端与服务端兼容性验证 。
RocketMQ的客户端API其实比较单一,无非就是消息发送、批量发送,消息消费,由于4.1版本不支持事务消息,这次升级甚至都无需验证事务消息,验证的要点:
测试案例来自哪,其实都不需要我们自己写,直接用官方的Demo即可,其代码截图如下:
客户端验证在真正实施过程中,其实比服务端之间的验证要复杂的多,由于各个项目组使用的客户端版本不一,甚至有些项目组会使用c++、Python等其他非Java客户端,如何精确找到该集群中所有客户端的连接信息(客户端版本、语言类型)至关重要.
官方提供的版本,对消费组的连接信息还是支持的比较友好,我们可以通过写脚本,先查询系统中所有的消费组,然后遍历每一个消费组,可以查询这些消费组的IP地址、客户端版本、使用的语言等信息,但开源版本对生产者支持的不友好,没有一个可获取所有发送者相关的接口.
获取消费组消费端的连接方式如下图所示:
故我们采取的方式,主要是基于消费组失败客户端类型,本次升级过程中,我也对RocketMQ做了一些定制化开发,可方便获取所有发送方的链接信息,后续会已提交PR的方式贡献给官方.
2.2.3 Broker端存储格式验证 。
由于没有空闲资源,本次要使用的升级方式是直接升级软件,但新老版本共用存储目录,基于RocketMQ的消息存储协议,从4.0.0版本之后就一直没有变化,其验证的关键点如下:
为什么需要验证4.1.0版本能兼容4.8.0呢?因为如果升级失败,需要回滚,如果4.1.0版本不能兼容4.8.0的话,会让你没有退路,这在架构设计中是绝对不允许的.
经过验证发现,存储文件是相互兼容的.
2.2.4 测试环境验证 。
经过上面三步的验证,已经可以进行升级了,但升级之前,还要在测试环境稳定运行一天,可以将测试环境升级成如下架构:
即不同版本的混搭模式,接受测试环境所有应用服务器的验证,如果测试环境运行没有问题,即可在生产环境进行升级.
2.4 实施方案 。
有了上面升级方案,并且已经做了充分的验证,是可以在生产环境执行了,在执行之前,需要对理论设计输出可执行可落地的实施方案,实施方案必须要包括回滚操作,并且这个回滚操作一定要比较容易执行,否则你的方案一定是不那么可靠的.
接下来重点阐述一下实施过程中一些关键步骤,整个升级步骤才有滚动升级,即逐台升级.
1、关闭一个Broker的写权限 。
关闭Broker写权限,让应用将流量平滑迁移到其他节点,这样可以有效避免在对该机器进行重启时对业务造成的影响.
2、带Broker写入、消费tps接近0时,关闭broker 。
3、使用新版本启动Broker 。
注意,此过程使用的配置文件为老版本的配置,故此时并没有开启写权限,启动并不会对客户端消息写入造成影响.
4、开启写权限 。
待新版本启动成功后,既可以开启写权限 。
观察流量.
重复上述步骤即可完成Broker的升级.
关于Nameserver的升级就更加容易了,采用滚动升级,kill掉老版本的nameserver,在原机器上启动新版本的nameserver即可.
原文地址:https://mp.weixin.qq.com/s/pUgbQXjaS5uxGrfhSZEVUQ 。
最后此篇关于线上环境大规模RocketMQ集群不停机优雅升级实践的文章就讲到这里了,如果你想了解更多关于线上环境大规模RocketMQ集群不停机优雅升级实践的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我在文档中找不到答案,所以我在这里问。 在 Grails 中,当您创建应用程序时,您会默认获得生产、开发等环境。 如果您想为生产构建 WAR,您可以运行以下任一命令: grails war 或者 gr
我们组织的网站正在迁移到 Sitecore CMS,但我们正在努力以某种方式为开发人员 (4)、设计师 (4)、QA 人员 (3)、作者 (10-15) 和批准者 (4-10) 设置环境在他们可以独立
如何在WinCVS中设置CVSROOT环境变量? 最佳答案 简单的回答是:您不需要。 CVSROOT 环境变量被高估了。 CVS(NT) 只会在确定存储库连接字符串的所有其他方法都已用尽时才使用它。人
我最近完成了“learnyouahaskell”一书,现在我想通过构建 yesod 应用程序来应用我所学到的知识。 但是我不确定如何开始。 关于如何设置 yesod 项目似乎有两个选项。一是Stack
在这一章中,我们将讨论创建 C# 编程所需的工具。我们已经提到 C# 是 .Net 框架的一部分,且用于编写 .Net 应用程序。因此,在讨论运行 C# 程序的可用工具之前,让我们先了解一下 C#
运行Ruby 代码需要配置 Ruby 编程语言的环境。本章我们会学习到如何在各个平台上配置安装 Ruby 环境。 各个平台上安装 Ruby 环境 Linux/Unix 上的 Ruby 安装
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我有一个这样的计算(请注意,这只是非常简化的、缩减版的、最小的可重现示例!): computation <- function() # simplified version! { # a lo
我使用环境作为哈希表。键是来自常规文本文档的单词,值是单个整数(某个其他结构的索引)。 当我加载数百万个元素时,更新和查找都变慢了。下面是一些代码来显示行为。 看起来从一开始的行为在 O(n) 中比在
我正在构建一个 R 包并使用 data-raw和 data存储预定义的库 RxODE楷模。这非常有效。 然而,由此产生的.rda文件每代都在变化。某些模型包含 R 环境,并且序列化似乎包含“创建时间”
(不确定问题是否属于这里,所以道歉是为了) 我很喜欢 Sublime Text ,我经常发现 Xcode 缺少一些文本/数据处理的东西。我可能有不止一个问题—— 'Command +/' 注释代码但没
我正在使用 SF2,并且创建了一些有助于项目调试的路由: widget_debug_page: path: /debug/widget/{widgetName} defau
我创建了一个名为 MyDjangoEnv 的 conda 环境。当我尝试使用 source activate MyDjangoEnv 激活它时,出现错误: No such file or direct
有没有办法区分从本地机器运行的包和从 Cordova 应用商店安装的包? 例如,我想像这样设置一个名为“evn”的 JavaScript 变量: if(cordovaLocal){ env = 'de
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我的任务是使用 java 和 mysql 开发一个交互式网站:使用 servlet 检索和处理数据,applet 对数据客户端进行特殊处理,并处理客户端对不同数据 View 的请求。 对于使用 jav
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
我想进行非常快速的搜索,看来使用哈希(通过环境)是最好的方法。现在,我得到了一个在环境中运行的示例,但它没有返回我需要的内容。 这是一个例子: a system.time(benchEnv(), g
我想开始开发 OpenACC 程序,我有几个问题要问:是否可以在 AMD gpu 上执行 OpenACC 代码? 如果是这样,我正在寻找适用于 Windows 环境的编译器。我花了将近一个小时什么也没
这可能看起来很奇怪,但是有没有办法制作机器(linux/unix 风格 - 最好是 RHEL)。我需要控制机器的速度以确保代码在非常慢的系统上工作并确定正确的断点(在时间方面)。 我能做到的一种方法是
我是一名优秀的程序员,十分优秀!