- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
作者:vivo 互联网服务器团队- Liu Xin、Yu Dan 。
本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明,希望即使是不懂技术的同学也能理解.
作为一名IT从业人员,比如开发和运维,多少有过类似的经历:睡觉的时候被电话叫醒,过节的时候在值班,游玩的时候被通知处理故障。作为一名程序员,我们时时刻刻都在想着运用信息技术,为别人解决问题,提升效率,节省成本。随着微服务架构的快速发展,带来一系列复杂的调用链路和海量的数据。对于我们来说,排查问题是一个大挑战,寻找故障原因犹如大海捞针,需要花费大量的时间和精力.
vivo已经建立了一套完整的端到端监控体系,涵盖了基础监控、通用监控、调用链、日志监控、拨测监控等。这些系统每天都会产生海量的数据,如何利用好这些数据,挖掘数据背后的潜在价值,让数据更好的服务于人,成为了监控体系的探索方向。目前行业内很多厂商都在朝AIOps探索,业界有一些优秀的根因分析算法和论文,部分厂商分享了在故障定位实践中的解决方案。vivo有较完整的监控数据,业界有较完整的分析算法和解决方案,结合两者就可以将故障定位平台run起来,从而解决困扰互联网领域的定位问题。接下来我们看下实施的效果.
目前主要针对平均时延指标的问题,切入场景包括两种:主动查询和调用链告警.
当用户反馈某个应用很慢或超时,我们第一反应可能是查看对应服务的响应时间,并定位出造成问题的原因,通常这两个步骤是分别进行,需要用到一系列的监控工具,费时费力。如果使用故障定位平台,只需从vivo的paas平台上进入故障定位首页,找到故障服务和故障时间,剩下的事情就交给系统完成.
当收到一条关于平均响应时间问题的调用链告警,只需查看告警内容下方的查看原因链接,故障定位平台就能帮助我们快速定位出可能的原因。下图是调用链告警示例:
。
调用链是vivo服务级监控的重要手段,上图红框内原因链接是故障定位平台提供的根因定位能力.
通过以上两种方式进入故障定位平台后,首先看到的是故障现场,下图表示服务A的平均响应时间突增.
。
上图红框区域,A服务从10:00左右,每分钟平均时延从78ms开始增长,突增到10:03分的90ms左右.
。
直接点击图2蓝色的【根因分析】按钮,就可以分析出下图结果:
。
从点击按钮到定位出原因的过程中,系统是如何做的呢?接下来我们看下系统的分析流程.
。
图4是根因分析的主要流程,下面将通过文字详细描述:
第一步: 前端将异常服务名和时间作为参数通过接口传递到后端; 。
第二步: 后端执行分析函数,分析函数调用检测算法,检测算法分析后,返回一组下游数据给分析函数(包括下游服务及组件、波动方差及pointType); 。
第三步: 分析函数根据pointType做不同逻辑处理,如果pointType=END_POINT,则结束分析,如果pointType=RPC_POINT,则将下游服务作为入参,继续执行分析函数,形成递归.
RPC_POINT包含组件:HTTP、DUBBO、TARS 。
END_POINT包含组件:MYSQL、REDIS、ES、MONGODB、MQ 。
。
最终分析结果展示了造成 服务A异常 的主要链路及原因,如下图所示:
。
在整个分析过程中,分析函数负责调用检测算法,并根据返回结果决定是否继续下钻分析。而核心逻辑是在检测算法中实现的,接下来我们看下检测算法是如何做的.
检测算法的大体 逻辑 是:先分析异常服务,标记出起始时间、波动开始时间、波动结束时间。然后根据起始时间~波动结束时间,对异常服务按组件和服务名下钻,将得到的下游服务时间线分成两个区域:正常区域(起始时间~波动开始时间)和异常区域(波动开始时间~波动结束时间),最后计算出每个下游服务的波动方差。大体过程如下图所示:
。
图中异常服务A调用了两个下游服务B和C,先标记出服务A的起始时间、波动开始时间、波动结束时间。然后将下游服务按时间线分成两个正常区域和异常区域,标准是起始时间 到 波动开始时间属于正常区域,波动开始时间 到 波动结束时间属于异常区域.
那么波动方差和异常原因之间有什么关联呢?
其实波动方差代表当前服务波动的一个量化值,有了这个量化值后,我们利用 K-Means聚类算法 ,将波动方差值分类,波动大的放一起聚成一类,波动小的放一起聚成一类。如下图:
。
最后我们通过聚成类的波动方差,过滤掉波动小的聚类,找到最可能造成异常服务的原因。以上是对算法原理的简要介绍,接下来我们更进一步,深入到算法实现细节.
(1)切分时间线: 将异常时间线从中点一分为二,如下图:
。
(2) 计算波动标准差: 运用 二级指数平滑算法 对前半段进行数据预测,然后根据观测值与预测值计算出波动标准差,如下图:
。
(3)计算异常波动范围: 后半段大于3倍波动标准差的时间线属于异常波动,下图红线代表3倍波动标准差,所以异常波动是红线以上的时间线,如下图:
。
(4)时间点标记: 红线与时间线第一次相交的时间点是波动开始时间,红线与时间线最后一次相交的时间点是波动结束时间,起始时间和波动结束时间关于波动开始时间对称,如下图:
。
(5)服务下钻: 根据起始时间~波动结束时间,对异常服务按组件和服务名下钻,得到下游服务时间线,如下图:
(6)计算正常区域平均值: 下游服务的前半段是正常区域,后半段是异常区域,先求出正常区域的平均值,如下图:
。
(7)计算异常区域波动方差: 根据异常区域波动点与正常区域均值之间的波动计算波动方差和波动比率,如下图: 。
。
(8)时间线过滤: 过滤掉波动方向相反、波动比率小于总波动比率的1/10的时间线,排除正常时间线,如下图:
。
(9)对剩余下钻时间线进行 KMeans聚类 ,如下图:
1、一种小而美的根因定位算法,利用方差量化波动,再通过排除法过滤掉波动小的下游,留下可能的下游作为原因。这种算法可以利用我们较完善的链路数据,可实现的成本低; 。
2、针对下游依赖场景的原因定位,准确率可达85%以上。但没有覆盖自身原因造成的故障(如GC、变更、机器问题等); 。
3、分析结果只能提供大概的线索,最后一公里还是需要人工介入; 。
4、故障定位算是AI领域的项目,开发方式与传统的敏捷开发有一定的区别:
角色职责: 领域专家(提出问题) → AI专家(算法预研) → 算法专家(算法实现和优化) → 应用专家(工程化开发) 。
操作步骤: 调研论文和git(业界、学界、同行) → 交流 → 实践 → 验证 。
项目实施: 复杂问题简单化,先做简单部分;通用问题特例化,找出具体案例,先解决具体问题.
1、故障预测: 当前我们主要关注服务出现异常后,如何检测异常和定位根因,未来是否能够通过一些现象提前预判故障,将介入的时间点左移,防患于未然; 。
2、数据质量治理: 当前我们的监控数据都有,但数据质量却参差不齐,而且数据格式的差异很大(比如日志数据和指标数据),我们在做机器学习或AIOps时,想要从中找出一些有价值的规律,其实挺难的; 。
3、经验知识化: 当前我们的专家经验很多都在运维和开发同学的脑海中,如果将这些经验知识化,对于机器学习或AIOps将是一笔宝贵的财富; 。
4、从统计算法往AI算法演进: 我们故障定位现在实际用的是统计算法,并没有用到AI。统计往往是一种强关系描述,而AI偏向弱关系,可以以统计算法为主,然后通过AI算法优化的方式.
。
参考资料 。
[1] Dapper, a Large-Scale Distributed Systems Tracing Infrastructure[EB/OL],2010-04-01. 。
[2] Holt-Winters Forecasting for Dummies (or Developers)[EB/OL],2016-01-29 . 。
[3] k-means clustering[EB/OL],2021-03-09. 。
最后此篇关于vivo故障定位平台的探索与实践的文章就讲到这里了,如果你想了解更多关于vivo故障定位平台的探索与实践的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
有人可以解释一下为什么这个脚本不起作用吗? function destroy(ID) { if (confirm("Deleting is a very bad thing! Sure?")
我正在尝试使 WCF Silverlight 故障按此方式工作: MSDN aricle 将 SL 故障添加到我的 Web.config 文件后,我收到以下警告: The element 'behav
这是我要删除的 Haskell 函数 2::Int和 5::Int从列表中: remPrimesFactors25 :: [Int] -> [Int] remPrimesFactors25 [] =
当我想用 ffmpeg 连接和录制两个 mp4 视频时,我遇到了这个问题。我得到的输出是: [concat @ 0x2566e80] DTS 4079 #0:0 (h264 (native) ->
我想在delphi中编写一个程序来模拟以特定速度移动的鼠标指针(类似于AutoIT MouseMove函数)。要么是我的代码错误,要么是 SetCursorPos 在被调用太多次后出现故障。这是我的功
我将“wa、or 和 id”(来自这些州的访问者)设置为重定向到 website1.com - 当我访问该网站时,它会将我重定向到 website1.com(因此它知道我在 WA) 。但如果我将 wa
我们目前正在争论通过 WCF channel 抛出错误与传递指示状态或服务响应的消息是否更好。 故障带有 WCF 的内置支持,您可以使用内置的错误处理程序并做出相应的 react 。然而,这会带来开销
不确定我在这里做错了什么,如果有任何帮助,我们将不胜感激。 尝试创建一个名为“control”的新变量,并在行变量等于这些数字时将其编码为 1,否则编码为 0。 data$control= ifels
我想在应用洞察中记录成功调用的百分比。我看到这篇文章https://learn.microsoft.com/en-us/azure/azure-monitor/app/sampling我认为固定速率采
我正在尝试使用 SVD 和特征分解来使用动态模式分解进行一些数据分析。我遇到了一个简单的问题,即从 Matlab 和 Python 获得不同的结果。我很困惑,不知道为什么 Python 给我错误的结果
This question already has an answer here: mysqli_fetch_assoc() expects parameter / Call to a member
我刚刚开始我的一个实验室,在那里我计算类(class)的 GPA,其信息存储在结构的链接列表中。截至目前,我正在尝试打印所有类(class)信息,以确保它们已正确初始化并添加到链接列表中。 我遇到了一
我正在尝试学习如何使用 visual studio 为 C++ 制作 GUI。但是我在使用 GetWindowText() 函数时遇到了一些问题。它不会将 LPTSTR 标题更改为文本框中的文本,并且
我有一个奇怪的问题。它似乎只出现在测试者的 iPhone 5s 上。它可以在运行最新 iOS (8.3) 的 iPhone 5、6 和 6 plus 上正常运行。 这是代码 -(NSString *)
我正在尝试更新 Core Data 中的一些记录。我正在采取以下步骤来完成它 带谓词的获取函数从核心数据中检索记录 将结果集存储在对象数组中 遍历数组并更新每条记录 调用保存上下文 我遇到了两个问题
我通过 Storyboard设计了 tableView,在一个单元格中我有一个按钮和一个标签。按钮在 Storyboard上有标签 1 和标签在 Storyboard上有标签 2。在 cellForR
我实现了这个方法,当在文本字段中输入了未经授权的字符或已使用的用户名时,向用户发送多个警报 View : func textFieldShouldEndEditing(textField: UITex
伙计们,我在运行程序时遇到了这个非常奇怪的错误。这是重要的代码: 变量(编辑): const short int maxX = 100; const short int maxZ = 100; con
我有这个修改过的 Matrix Javascript 代码,我想摆脱第一次运行的所有与自身重叠的字符串。有人知道我该如何管理吗?另外,我想在我的网页上多次使用此代码,我需要声明新变量,不是吗?但是当我
有谁知道是否有网站(甚至非 Microsoft)有关于 COMExceptions/HRESULTS 的详细信息。 当我尝试在使用 Copy() 函数后保存我的 Excel 工作簿时,我收到此错误:
我是一名优秀的程序员,十分优秀!