prometheusHistogram统计原理-6ren

prometheusHistogram统计原理

转载作者：我是一只小鸟更新时间：2023-07-06 14:31:26

大家好，我是蓝胖子，书接上文，我在 prometheus描点原理那一篇文章里，留了一个思考题

我们通常会用到histogram_quantile去计算服务接口时间的耗时情况.

                        
                          histogram_quantile(0.99,rate(server_handle_seconds_bucket{}[1m]))

但是rate函数会将原指标按时间求斜率，这样会影响原本分位数的计算吗?

先说下结论，不影响分位数结果的计算。要解释这个问题，还是要看看分位数统计Histogram的原理.

Histogram指标内容

在解释统计原理之前，我们先看看Histogram指标指标究竟是如何存储的，当我们用prometheus 客户端创建一个Histogram监控数据类型时，其本质上会创建一组指标，如下所示

注意概念，在prometheus中，如果指标名和标签完全相同，那么将会认为他们是同一个指标，将携带有时间戳的指标称为指标的样本。prometheus server web控制台查询出来的就是样本.

                        
                          # TYPE server_handle_seconds histogram
server_handle_seconds_bucket{type="http",le="0.005"} 0
server_handle_seconds_bucket{type="http",le="0.01"} 0
server_handle_seconds_bucket{type="http",le="0.025"} 0
server_handle_seconds_bucket{type="http",le="0.05"} 0
server_handle_seconds_bucket{type="http",le="0.1"} 0
server_handle_seconds_bucket{type="http",le="0.25"} 0
server_handle_seconds_bucket{type="http",le="0.5"} 0
server_handle_seconds_bucket{type="http",le="1"} 0
server_handle_seconds_bucket{type="http",le="2.5"} 0
server_handle_seconds_bucket{type="http",le="5"} 0
server_handle_seconds_bucket{type="http",le="10"} 37092
server_handle_seconds_bucket{type="http",le="+Inf"} 37092
server_handle_seconds_sum{type="http"} 370920
server_handle_seconds_count{type="http"} 37092

le标签可以认为是Histogram监控数据类型特有的标签，含义是桶的上边界，拿上述指标server_handle_seconds_bucket{type="http",le="10"} 举例，这个指标的值是37092，表示小于等于10s的请求有37092次。直方图Histogram每个桶中统计的次数包含了前面的桶的次数.

histogram_quantile在计算分位数时，就是判断指标样本中是否携带le标签，是的话才会纳入分位数的计算中。并且histogram_quantile函数是拿一组瞬时向量进行计算的，计算后得到一个分位数.

注意下概念，在prometheus中，向量vector是指单个时间点的指标样本，矩阵matrix是一组时间点的样本。无论是vector还是matrix，他们都可以是多个指标，不过区别在于指标的样本是单个时间点的，还是一组时间节点的.

拿上述指标举例，histogram_quantile 计算时就是拿指标名为server_handle_seconds_bucket的指标集合某个时间节点的指标值进行计算的。指标集合包含下面几个指标。

                        
                          ##  指标名和标签                                      指标值
server_handle_seconds_bucket{type="http",le="0.005"} 0
server_handle_seconds_bucket{type="http",le="0.01"} 0
server_handle_seconds_bucket{type="http",le="0.025"} 0
server_handle_seconds_bucket{type="http",le="0.05"} 0
server_handle_seconds_bucket{type="http",le="0.1"} 0
server_handle_seconds_bucket{type="http",le="0.25"} 0
server_handle_seconds_bucket{type="http",le="0.5"} 0
server_handle_seconds_bucket{type="http",le="1"} 0
server_handle_seconds_bucket{type="http",le="2.5"} 0
server_handle_seconds_bucket{type="http",le="5"} 0
server_handle_seconds_bucket{type="http",le="10"} 37092
server_handle_seconds_bucket{type="http",le="+Inf"} 37092

所以我们在计算时为什么要将server_handle_seconds_bucket{}[1m] 用rate函数进行计算，因为单独的server_handle_seconds_bucket{}[1m] 返回的数据类型是matrix类型,是一组时间节点的样本，即某个桶类型的指标有多个样本值，而 histogram_quantile 只要求一个桶类型的指标(携带le的指标)只有一个样本值。所以通过rate函数将一个矩阵类型的数据变成了向量类型。

histogram_quantile 统计分位数原理

搞懂了为什么要用rate函数，再来看看为什么rate函数改变了桶的大小后不会对分位数计算逻辑产生影响.

拿文章开头的计算分位数的表达式举例。

                        
                          histogram_quantile(0.99,rate(server_handle_seconds_bucket{}[1m]))

我们需要计算指标名为server_handle_seconds_bucket 在过去1分钟内的数据的百分之99分位数.

histogram_quantile计算步骤如下

1, 首先会拿最后一个桶中(因为最后一个桶包含了所有样本的个数)的统计的次数去乘以分位数，看下第99分位是所有样本数据中的第几个，假设用rank变量存储这个结果.

2，拿上一步的计算结果rank值挨个桶比较统计次数，找到第一个桶的次数大于等于rank值的桶。这一步就计算出了99分位的样本是在哪个桶里.

3，最后通过下面的计算估算99分位数是多少。

                        
                          bucketStart + (bucketEnd-bucketStart)*(rank/count)

bucketEnd 和bucketStart是桶的上下边界值，估算分位数是多少时，是默认在这个桶内，数据是线性均匀分布的，所以拿(bucketEnd-bucketStart)*(rank/count) 估算出99分为的数在这个桶内的偏移量.

所以，你可以看到分位数的计算虽然用到了count值，但是是拿count值和rank值相除得到一个比例，rate函数虽然将桶指标的count值变小了，但由于计算时，我仅仅是求一个比例值，所以对分位数的结果运算并不影响.

最后此篇关于prometheusHistogram统计原理的文章就讲到这里了,如果你想了解更多关于prometheusHistogram统计原理的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：盘点！国内隐私计算学者在USENIXSecurity2023顶会上的成果

文章推荐： ERP查询Q报表开发代码

文章推荐：深入解析Redis的LRU与LFU算法实现

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城