- 在VisualStudio中部署GDAL库的C++版本(包括SQLite、PROJ等依赖)
- Android开机流程介绍
- STM32CubeMX教程31USB_DEVICE-HID外设_模拟键盘或鼠标
- 深入浅出Java多线程(五):线程间通信
🎬作者简介:大家好,我是蓝胖子🥇 。
☁️博客首页:博客园主页蓝胖子的编程梦 。
🌄每日一句:编程中我们会遇到多少挫折?表放弃,沙漠尽头必是绿洲.
大家好,我是蓝胖子,关于链路追踪的demo的讲解文章其实很多,但是想把链路追踪真正融入到生产环境却不是那么容易,今天我们来聊聊链路追踪技术在实际落地过程中不得不解决的两个问题.
我们来看看这两个问题:
大量链路追踪数据的存储与查询
研发改造成本比较大,需要对不同组件进行埋点统计
👇🏻👇🏻 下面给出我对于这两个问题的一些思考与解决方案.
首先是链路追踪数据的存储与查询问题,因为线上环境产生的链路追踪数据往往是及其庞大的,那么肯定是不能全量采集的,并且全量采集链路追踪数据也必然会导致很多没有追踪意义的数据被采集下来,增加了成本.
这就涉及到采样方式的选择,本质上减少采样的数据量,让采样的数据都有意义就能解决产生大量链路追踪数据的问题.
减少采样数据量是一个优化方向,如果减少了采样数据量以后,采样数据还是足够庞大就只能从架构上扩容来满足大量的数据采集的需求,比如如果是用es来存储trace数据,那么可以新增存储的es集群节点来满足大量trace数据存储的问题,并且将数据采集的collector,比如如果使用Opentelemetry,那么可以将Opentelemetry Collector 进行扩容来满足大量数据采集的问题.
关于采样方式的选择,一般分为两种方式,前置采样和后置采样,我们挨个来看看.
前置采样是指在采集trace数据第一个节点的时候就判断数据是否被采集,举一个例子,如果有链路A,B,C,如果在A处决定了要对trace数据进行采样,那么这个采样策略会被B,C所继承,B,C也会被采样到.
前置采样比较好理解,也比较容易实现,但是前置采样在生产环境上的使用效果并不好,因为很多时候我们都是需要完整的链路才容易判断整条链路是不是应该被采集到,比如如果整条链路有报错,那么我们是希望整条链路是被采集下来的,但前置采样则无法在采集第一个阶段时就知道后续的span中有错误发生,这是前置采样的缺陷。为了不遗漏线上失败的(有意义的)trace数据,我们往往也会关闭点概率采样,这就导致使用前置采样时,要想确保错误发生时,trace数据一定被采集下来,那么就只有对trace数据进行全部采样了,这显然不是我们需要的.
所以,我们来看看,关于链路追踪的另一种采样方式,后置采样,后置采样则是在等待整条链路全部被采集完毕后才会去判断整条链路是否需要被采集.
所以后置采样有个缓存trace数据的地方,拿Opentelemetry Collector的后置采样配置举例,tail_sampling 中的配置是关于后置采样的相关配置.
在接收到trace的span数据后,并不是马上决定该trace是否应该被采样,而是等待decision_wait时间后,将该trace相关的span从内存缓存中取出来判断是否应该被采集,内存不是无限增大的,num_traces限制了最大能存储的trace的条数.
注意📢,num_traces 不要设置的太小,否则容易在等待时间decision_wait内,达到num_traces的阈值从而导致未被处理的trace数据被丢弃.
processors:
tail_sampling:
decision_wait: 5s
num_traces: 1
expected_new_traces_per_sec: 1
policies:
[
{
name: test-policy-11,
type: boolean_attribute,
boolean_attribute: { key: slowsql, value: true }
}
]
在上述配置中,设置了采样的策略,即采集到的span中如果有slowsql属性设置为true则认为该条trace应该被采集.
注意📢,只要一条trace轨迹中,有一个span被确认为需要被采集,那么整条trace都会被采集到.
可以注意到,通过后置采样,我们可以设计如下的一些有意义的采集策略, 。
对请求链路中有错误发生的链路进行采集
对有慢查询的链路进行采集
对慢http请求的链路进行采集
通过这样的策略,我们最大化的减少无效数据的存储,能大大减少链路追踪的采集存储查询成本。接着来看下实施后置采样可以用哪些组件,下面我用一个业界比较常见的后置采样架构举例.
后置采样能解决仅采集有效trace数据的问题,但不是所有链路追踪工具都具有后置采样的功能,比如jaeger就仅仅支持前置采样,在使用jaeger时, 需要配合Opentelemetry Collector,借用Opentelemetry Collector 的后置采样功能来进行trace数据的过滤,然后再由jaeger 去进行收集和展示.
整个采集架构类似于这样, 。
Opentelemetry Collector 将后置采样后的数据发往jaeger Collector 去进行收集,最后通过jaeger 的ui组件显示出来。这个架构也是jaeger官方推荐的一种架构模型。下面是其相关的部署模式链接.
https://www.jaegertracing.io/docs/1.52/architecture/
上面通过后置采样的方案算是解决了大量trace数据采集的问题,接着我们来看看关于项目服务接入链路追踪时要做的基础组件改造问题.
目前golang 服务在接入链路追踪功能时,主要还是通过在基础框架中进行埋点处理,这涉及到一定的研发成本,和java不同,java的字节码注入技术可以实现对业务服务的零侵入接入链路追踪技术.
不过在golang这块,目前业界已经有开源项目opentelemetry-go-instrumentation ,它的目的是通过epbf技术在不修改服务代码的前提下,实现golang的自动化监控。大家可以关注下这块儿,不过目前它支持的自动化监控范围并不多,下面是该项目的访问地址.
https://github.com/keyval-dev/opentelemetry-go-instrumentation/tree/master
所以,总结下来,golang构建的服务,还是会更多的手动去改造基础框架,后续有空再介绍相关框架如何改造来支持链路追踪的吧.
最后此篇关于(硬核中的硬核)链路追踪落地过程中的挑战与解决方案的文章就讲到这里了,如果你想了解更多关于(硬核中的硬核)链路追踪落地过程中的挑战与解决方案的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
如果我声明了类似的类型 type test(NSIZE) integer, len :: NSIZE real :: dummy(NSIZE) contains procedure,
我知道这是一个不太可能的事情,但是由于“选项私有(private)模块”的限制,甚至更糟糕的“私有(private)子/函数”的限制,有谁知道是否有一种方法可以从 Excel 应用程序隐藏 VBA 过
我有两个表,property 和 component。 component.id_property = property.id。 我正在尝试创建一个过程,该过程对所选属性的组件进行计数,如果所选属性没
我有一份报告,它是在 SSRS 2005 中开发的,我正在使用存储过程从数据库中获取结果。报告输出的结果非常简单,如下图所示。 如果假设我正在寻找不同的成员 例如:- MemberID c108 c
我需要一个通用函数/过程,该函数/过程将根据提供的数据计算出我的淡入淡出时间和值,如下所示: 我将字节值保存在字节数组中:这些是起始值。然后,我在其他数组中存储了一些值:这些将是新值。然后我有时间要提
我想在界面的多个按钮上创建相同的操作。是否只能通过创建单独的操作监听器方法并调用执行操作的方法才可行,还是还有其他方法?是否可以将按钮放在一个组中并执行以下操作:- groupButton.setOn
我有以下情况: procedure Test; begin repeat TryAgain := FALSE; try // Code // Code if this an
我正在尝试执行以下操作;假设我在 Oracle 中创建了一个对象类型 create type test as object( name varchar2(12), member procedure p
问题: 如果可能的话,如何声明一个用于任何类型参数的函数 T其中 T 的唯一约束是它被定义为 1D array如 type T is array ( integer range <> ) of a_r
我正在尝试创建这个 mysql 过程来制作一个包含今年所有日期和所有时间的表(以一小时为间隔。) CREATE TABLE FECHAS ( created_at datetime ); CREA
所以, 我在这里面临一个问题,这让我发疯,我认为这是一个愚蠢的错误,所以我不是 MySQL 的新手,但它并不像我想象的那样工作。 尝试将此语句部署到 MySQL 后,我收到此错误: ERROR 106
我有一个架构,其中包含星球大战中的人物列表、他们出现的电影、他们访问的行星等。这是架构: CREATE DATABASE IF NOT EXISTS `starwarsFINAL` /*!40100
我一直在为一家慈善机构创建一款应用程序,允许家庭在节日期间注册接收礼物。数据库组织有多个表。下面列出了这些表(及其架构/创建语句): CREATE TABLE IF NOT EXISTS ValidD
正如上面标题所解释的,我正在尝试编写一个sql函数来按日期删除表而不删除系统表。我在此消息下方放置了一张图片,以便直观地解释我的问题。任何帮助将不胜感激!感谢您的时间! 最佳答案 您可以通过查询INF
DELIMITER $$ CREATE PROCEDURE INSERT_NONE_HISTORY_CHECKBOX() BEGIN DECLARE note_id bigint(20); F
是否可以编写一个存储过程或触发器,在特定时间在数据库内部自动执行,而无需来自应用程序的任何调用?如果是,那么任何人都可以给我一个例子或链接到一些我可以阅读如何做到这一点的资源。 最佳答案 查看 pgA
我需要创建一个过程:1)从表中的字段中选择一些文本并将其存储在变量中2) 更新相同的记录字段,仅添加 yyyymmdd 格式的日期以及过程中的附加文本输入...类似这样的... delimiter /
好的,这就是我想做的: 如果条目已存在(例如基于字段name),则只需返回其id 如果没有,请添加 这是我迄今为止所管理的(对于“如果不存在,则创建它”部分): INSERT INTO `object
以下是我编写的程序,用于找出每位客户每天购买的前 10 件商品。 这是我尝试过的第一个 PL/SQL 操作。它没有达到我预期的效果。 我使用的逻辑是接受开始日期、结束日期以及我对每个客户感兴趣的前“x
我正在尝试在MySQL中创建一个过程那insert week s(当年)发送至我的 week table 。但存在一个问题,因为在为下一行添加第一行后,我收到错误: number column can
我是一名优秀的程序员,十分优秀!