- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
2022年12月18日上午,阿里云发布《阿里云香港可用区C某机房设备异常》公告。“阿里云监控发现香港地域某机房设备异常,影响香港地域可用区C的云服务器ECS、云数据库PolarDB等云产品使用,阿里云工程师已在紧急处理中。” 。
在这个寒冷的冬天,一个炸雷给业界惊起了一个大波浪。很多人不解的是说好的高可用呢。说好的N个9呢?SLA 就是个笑话,服务该挂不还是挂了。虽然经过十几个小时,阿里云香港节点服务恢复了,数据也恢复了,终于可以让各位老板松了口气,估计很多运维的小伙伴已经开始迁移服务或者开始做备份了.
但是并不是每个公司都这么幸运,不知道还有谁记得「前沿数控」这个公司,当初因为所有数据都在云硬盘上,结果因为云硬盘故障,导致公司的所有数据全部丢失,一夜回到解放前,也不知道官司现在结果如何了.
经过阿里云这次大故障,估计很多老板都会考虑可靠性的问题了,尤其是服务和数据的安全。再心大的老板估计也得让人做个服务和数据的冷备份,稍微懂点的得用混合云搞搞,估计再也没人嘲笑那些自建小容器云、自建机房的公司了.
。
公有云故障和公司内部服务处理方式区别很大 。
。
之前一个老板问我说公司内部要不要搞一个StatusPage?我说可以搞,但是优先级不高,等以后有精力有时间了可以搞。公司内部的很多服务会不会出问题,哪里出问题,怎么解,其实很多时候都是有固定答案的,你一回想就能知道哪里可能有问题。很多时候我们并不是缺少一个和用户沟通的渠道,而是我们故障预案都没有,也从来没有演练过。出故障是肯定的,只是不确定什么时候发生而已。先把重要的事,不做就得死的事做了、做好了再考虑其它的.
StatusPage,一句话描述就是:当你的在线业务宕机时,StatusPage 允许你和你的客户进行沟通,告知他们当前服务的状态和问题处理进展。业务正常服务状态下,客户也可以查看当前服务状态是否正常。同时,客户也可以查看这一业务所有历史上的问题发生和处理记录.
公司内部我们有很多的渠道与用户沟通。在公司内部,一般都有系统的用户群,当服务挂了,各种监控告警就会发出来,系统相关人都会注意到,第一时间在群内周知。这个和公有云的服务还是有很大不同的.
。
再好的预案没演练过也只是预案 。
。
就像平时,很多公司都会声称我们的系统有备份能还原。实际上很多时候也只是一个备份、还原「预案」。结果最后真的需要还原的时候发现,要么备份没成功,要么备份成功了但是数据陈旧,要么找到数据了但是无法还原。。。。总之结论就是没法还原。做这行久了,八卦也就有了,我身边血淋淋的案例太多了,此处我想 at 下我全大哥 :) 。
。
线上服务故障演练 。
。
我们真的需要对线上服务进行故障演练。针对各种故障场景下服务的容错能力、配置合理性、服务健壮性、监控告警实效性、定位与解决问题应急能力等进行演练。发现线上服务的薄弱环节,提升服务的容错性和可恢复性.
别有侥幸心理,踏实干事,一步一个脚印才能让掉坑里的次数少点.
。
相关阅读 。
中国云服务走向全球?先把 Status Page 搞定 。
我们可以信任阿里云的故障处理吗?
阿里云香港节点全面故障给我们的启示 。
。
。
最后此篇关于阿里云香港节点全面故障给我们的启示的文章就讲到这里了,如果你想了解更多关于阿里云香港节点全面故障给我们的启示的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
有人可以解释一下为什么这个脚本不起作用吗? function destroy(ID) { if (confirm("Deleting is a very bad thing! Sure?")
我正在尝试使 WCF Silverlight 故障按此方式工作: MSDN aricle 将 SL 故障添加到我的 Web.config 文件后,我收到以下警告: The element 'behav
这是我要删除的 Haskell 函数 2::Int和 5::Int从列表中: remPrimesFactors25 :: [Int] -> [Int] remPrimesFactors25 [] =
当我想用 ffmpeg 连接和录制两个 mp4 视频时,我遇到了这个问题。我得到的输出是: [concat @ 0x2566e80] DTS 4079 #0:0 (h264 (native) ->
我想在delphi中编写一个程序来模拟以特定速度移动的鼠标指针(类似于AutoIT MouseMove函数)。要么是我的代码错误,要么是 SetCursorPos 在被调用太多次后出现故障。这是我的功
我将“wa、or 和 id”(来自这些州的访问者)设置为重定向到 website1.com - 当我访问该网站时,它会将我重定向到 website1.com(因此它知道我在 WA) 。但如果我将 wa
我们目前正在争论通过 WCF channel 抛出错误与传递指示状态或服务响应的消息是否更好。 故障带有 WCF 的内置支持,您可以使用内置的错误处理程序并做出相应的 react 。然而,这会带来开销
不确定我在这里做错了什么,如果有任何帮助,我们将不胜感激。 尝试创建一个名为“control”的新变量,并在行变量等于这些数字时将其编码为 1,否则编码为 0。 data$control= ifels
我想在应用洞察中记录成功调用的百分比。我看到这篇文章https://learn.microsoft.com/en-us/azure/azure-monitor/app/sampling我认为固定速率采
我正在尝试使用 SVD 和特征分解来使用动态模式分解进行一些数据分析。我遇到了一个简单的问题,即从 Matlab 和 Python 获得不同的结果。我很困惑,不知道为什么 Python 给我错误的结果
This question already has an answer here: mysqli_fetch_assoc() expects parameter / Call to a member
我刚刚开始我的一个实验室,在那里我计算类(class)的 GPA,其信息存储在结构的链接列表中。截至目前,我正在尝试打印所有类(class)信息,以确保它们已正确初始化并添加到链接列表中。 我遇到了一
我正在尝试学习如何使用 visual studio 为 C++ 制作 GUI。但是我在使用 GetWindowText() 函数时遇到了一些问题。它不会将 LPTSTR 标题更改为文本框中的文本,并且
我有一个奇怪的问题。它似乎只出现在测试者的 iPhone 5s 上。它可以在运行最新 iOS (8.3) 的 iPhone 5、6 和 6 plus 上正常运行。 这是代码 -(NSString *)
我正在尝试更新 Core Data 中的一些记录。我正在采取以下步骤来完成它 带谓词的获取函数从核心数据中检索记录 将结果集存储在对象数组中 遍历数组并更新每条记录 调用保存上下文 我遇到了两个问题
我通过 Storyboard设计了 tableView,在一个单元格中我有一个按钮和一个标签。按钮在 Storyboard上有标签 1 和标签在 Storyboard上有标签 2。在 cellForR
我实现了这个方法,当在文本字段中输入了未经授权的字符或已使用的用户名时,向用户发送多个警报 View : func textFieldShouldEndEditing(textField: UITex
伙计们,我在运行程序时遇到了这个非常奇怪的错误。这是重要的代码: 变量(编辑): const short int maxX = 100; const short int maxZ = 100; con
我有这个修改过的 Matrix Javascript 代码,我想摆脱第一次运行的所有与自身重叠的字符串。有人知道我该如何管理吗?另外,我想在我的网页上多次使用此代码,我需要声明新变量,不是吗?但是当我
有谁知道是否有网站(甚至非 Microsoft)有关于 COMExceptions/HRESULTS 的详细信息。 当我尝试在使用 Copy() 函数后保存我的 Excel 工作簿时,我收到此错误:
我是一名优秀的程序员,十分优秀!