- VisualStudio2022插件的安装及使用-编程手把手系列文章
- pprof-在现网场景怎么用
- C#实现的下拉多选框,下拉多选树,多级节点
- 【学习笔记】基础数据结构:猫树
众所周知,对于虚拟化的工作负载(尤其是公有云场景),我们希望其具有足够的高可用性。当一个服务在物理层面上暴毙了,或者因为网络原因断开了和主集群的连接,我们希望有备份机对于原有的服务进行实时的热迁移(real-time & hot),而不丢失(或者很少丢失)原有的执行状态。尤其是对于那些负载较高或者可用性要求较高的服务来说,这个技术在业务侧进行混合云部署时也比较有用.
本文描述了一种解决方案,对于这个过程中的技术细节和可能出现的问题进行了一些讨论.
本项目的绝大部分思路来源于这篇非常经典的Remus论文:https://www.usenix.org/legacy/event/nsdi08/tech/full_papers/cully/cully_html/ 。
这里有一个示例项目的代码,客观来说写的略显杂乱,仅供参考:https://github.com/mahiru23/intravisor/tree/syscall 。
显然,如果我们想要迁移一个服务,我们一定要有技术将一个服务的快照完整保存下来并且在另一台物理机上进行恢复.
如果你的服务是以一个进程/线程的方式存在,我们只需要迁移其上下文(thread context),当然也包括存储系统的维护。如果是容器或者虚拟机,我们可能需要一些额外的metadata和与底层基座/硬件解耦合的机制,这里不做过多讨论,仅为抛砖引玉.
如果你的集群使用OSS等技术来进行外部存储,则可以忽略对于同步持久化存储的需求.
这里我们讨论一个最简单的情况:一个单线程的进程,其可能的快照组成如下:
一个典型的单线程复制流水线分为:停机(suspend) -> 快照采集(snapshot) -> 传输(network) -> 恢复(resume) 四个步骤.
模块化的主机操作流水线:
备份机操作流水线:
我们需要一个灵敏的错误检测器,可能由多种机制组成:
根据需求,我们可能需要将快照采集和传输两个过程解耦合,使得我们主服务的停机时间尽可能短。这就需要几个额外的线程去采集并传输不同的资源,包括TCP状态,disk,context等.
我们的事件可能是heartbeat/snapshot/disk ops/net ops/其他...... 。
这样我们就可以对带宽和计算资源完全分开,并且动态调整了,甚至我们可以设置一个threshold来监控队列的大小,是否阻塞.
显然我们不能在每一个复制周期都进行全量复制,相反,我们只传输自上一个复制周期以来被修改的那部分,也就是做增量的备份.
对于内存页面来说,脏页追踪(dirty page tracking)机制是我们需要的.
我们通过mmap监控物理内存段,手动disable掉自动page的write back机制,将用户虚拟页面的管理权限从kernel层面上移到user space层面,这也是本方案的一个核心要点.
在用户空间,我们可以使用hash table对于用户的页面进行编码,进行统一管理.
由于一个4KB的页面可能只有很小一部分被修改,一个合理的优化是将本周期的页面更新与上一个周期做差,用gzip或者run length encode做压缩,这个优化在高频复制时可以显著降低传输中的带宽需求.
高可用永远都是有代价的,额外的带宽消耗/算力损耗/备份空间需求等都是潜在的问题,是否采用请自行抉择.
复制的频率从每秒10次到每10min一次或者更长,这一切也取决与你的个人需求(以及代码编写水平).
以上,就这样吧,如果有其他想要讨论的内容评论区见.
最后此篇关于虚拟化实战:对(类)虚拟机进行实时热迁移的文章就讲到这里了,如果你想了解更多关于虚拟化实战:对(类)虚拟机进行实时热迁移的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我想要类似于以下伪代码的东西: while input is not None and timer = 5: print "took too long" else: print inp
如何将 MainEngine Observable 转换为 Cold?来自这个例子: public IObservable MainEngine { get
自从手表被发明以来,表盘的方圆之争就始终没有停下来过,在漫长的岁月中,无论是方形还是圆形表盘,人们都为其寻找到足够多的设计元素,让其肆意成长,这种生机与活力后来也延续到了智能手表上,在2014年,这
我正在学习 CUDA,试图解决一些标准问题。例如,我正在使用以下代码求解二维扩散方程。但我的结果与标准结果不同,我无法弄清楚。 //kernel definition __global__ void
我的 Web 应用程序使用 native dll 来实现其部分功能(其位置在 PATH 中提供)。一切正常,直到我对 WAR 进行更改并且 JBoss 热部署此 WAR。此时dll已经找不到了,需要手
我看到这个问题here 。这是关于实现每个发出的项目的延迟。这是根据accepted answer如何实现的: Observable.zip(Observable.range(1, 5) .g
我最近一直在进行冷迁移...这意味着我无法在进行迁移时从应用程序级别读取/写入数据库(维护页面)。 这样就不会因为更改结构而发生错误,而且如果负载很大,我也不希望 mysql 在迁移过程中崩溃。 我的
我是一名优秀的程序员,十分优秀!