如何用Redis统计海量UV？-6ren

如何用Redis统计海量UV？

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

29

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章如何用Redis统计海量UV？由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

前言

我们先思考一个常见的业务问题：如果你负责开发维护一个大型的网站，有一天老板找产品经理要网站每个网页每天的 UV 数据，然后让你来开发这个统计模块，你会如何实现？

统计uv的常用方法以及优缺点

其实要是单纯的统计pv是比较好办的，直接用redis的incr就行，但是uv的话，它要去重，同一个用户一天之内的多次访问请求只能计数一次。这就要求每一个网页请求都需要带上用户的 ID，无论是登陆用户还是未登陆用户都需要一个唯一 ID 来标识.

set

比较容易想到的是为每一个页面一个独立的 set 集合来存储所有当天访问过此页面的用户 ID。当一个请求过来时，我们使用 sadd 将用户 ID 塞进去就可以了。通过 scard 可以取出这个集合的大小，这个数字就是这个页面的 UV 数据。没错，这是一个非常简单的方案.

但是，如果你的页面访问量非常大，比如一个爆款页面几千万的 UV，你需要一个很大的 set 集合来统计，这就非常浪费空间。如果这样的页面很多，那所需要的存储空间是惊人的.

hash

hash和set在处理uv的问题上其实类似，把用户id作为hash的key的确可以去重，但是如果访问量大了之后也会消耗很大的内存空间。

bitmap

bitmap同样是一种可以统计基数的方法，可以理解为用bit数组存储元素，例如01101001，表示的是[1,2,4,8]，bitmap中1的个数就是基数。bitmap也可以轻松合并多个集合，只需要将多个数组进行异或操作就可以了。bitmap相比于Set，Hash也大大节省了内存，我们来粗略计算一下，统计1亿个数据的基数，需要的内存是：100000000/8/1024/1024 ≈ 12M.

虽然bitmap在节省空间方面已经有了不错的表现，但是如果需要统计1000个对象，就需要大约12G的内存，显然这个结果仍然不能令我们满意。在这种情况下，HyperLogLog将会出来拯救我们.

HyperLogLog

这就是本节要引入的一个解决方案，Redis 提供了 HyperLogLog 数据结构就是用来解决这种统计问题的。HyperLogLog 提供不精确的去重计数方案，虽然不精确但是也不是非常不精确，标准误差是 0.81%，这样的精确度已经可以满足上面的 UV 统计需求了.

HyperLogLog 数据结构是 Redis 的高级数据结构，它非常有用，但是令人感到意外的是，使用过它的人非常少.

使用方法。

Redis 的位数组是自动扩展，如果设置了某个偏移位置超出了现有的内容范围，就会自动将位数组进行零扩充.

命令。

HyperLogLog 提供了两个指令 pfadd 和 pfcount，根据字面意义很好理解，一个是增加计数，一个是获取计数.

具体实现。

pfadd 用法和 set 集合的 sadd 是一样的，来一个用户 ID，就将用户 ID 塞进去就是。pfcount 和 scard 用法是一样的，直接获取计数值。关键是它非常省空间，载统计海量uv的时候，只占用了12k的空间。

127.0.0.1:6379> pfadd codehole user1
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 1
127.0.0.1:6379> pfadd codehole user2
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 2
127.0.0.1:6379> pfadd codehole user3
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 3
127.0.0.1:6379> pfadd codehole user4
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 4
127.0.0.1:6379> pfadd codehole user5
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 5
127.0.0.1:6379> pfadd codehole user6
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 6
127.0.0.1:6379> pfadd codehole user7 user8 user9 user10
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 10

简单试了一下，发现还蛮精确的，一个没多也一个没少。接下来我们使用脚本，往里面灌更多的数据，看看它是否还可以继续精确下去，如果不能精确，差距有多大.

我们将数据增加到 10w 个，看看总量差距有多大.

public class JedisTest {
public static void main(String[] args) {
Jedis jedis = new Jedis();
for (int i = 0; i < 100000; i++) {
jedis.pfadd("codehole", "user" + i);
}
long total = jedis.pfcount("codehole");
System.out.printf("%d %d\n", 100000, total);
jedis.close();
}
}

跑了约半分钟，我们看输出:

> python pftest.py
100000 99723

差了 277 个，按百分比是 0.277%，对于上面的 UV 统计需求来说，误差率也不算高。然后我们把上面的脚本再跑一边，也就相当于将数据重复加入一边，查看输出，可以发现，pfcount 的结果没有任何改变，还是 99723，说明它确实具备去重功能.

原文链接：https://mp.weixin.qq.com/s/S8mPLUdUp9aQmKw13_9yyg 。

最后此篇关于如何用Redis统计海量UV？的文章就讲到这里了,如果你想了解更多关于如何用Redis统计海量UV？的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

29

4

0

文章推荐： php bcdiv和bcmul 函数的怪异现象

文章推荐： Redis 新特性篇：多线程模型解读

文章推荐： Spring学习笔记之RestTemplate使用小结

文章推荐： php7中停止php-fpm服务的方法详解

java - 通过插值在重心坐标处获得适当的 UV
我正在尝试实现凸多边形的正确纹理。我有一个带有 n 个三角形的多边形，对于每个三角形，我正在计算重心坐标，它们是每个三角形的 uv，但在每个三角形的 [0..1] 中，而不是整个多边形。如何插入每个
c# - UV 贴图墙的正确方法是什么？
我目前正在开发一款 map 工具，可以为我的游戏生成自定义 map 。我的网格生成工作得很好，但我看不出如何正确地对我的脸进行 UV 贴图以使纹理保持一致。我已经通过使用相应的坐标对使 UV 贴图在地
ios - UV 更改后纹理不再渲染
我打算编写一个纹理图集管理器，但我遇到了问题。当我修改原始 UV 坐标时，我的程序不再渲染任何内容？这是我的抽奖代码: - (void)drawFrame { [(EAGLView *)self.vi
c++ - 为任意网格生成三平面 UV？
我有一个 3D 地形(体素网格，我的“任意网格”)。我知道如何从网格上方“拍打”纹理，但在垂直或陡峭的斜坡上它会弄脏。我可以访问每个顶点的法线和位置。我将如何生成 UV(不使用着色器，因此没有真正的
c++ - 为不同长度的四边形匹配滚动 UV
我有几个 (3-4) 带(基本上是长三角形带)，它们共享相同的纹理并且基本上从相同的位置开始。我通过将每一帧的偏移量添加到 V 坐标来垂直滚动该纹理。该偏移量只是我添加到每一帧的一个成员变量(是的，它
android - UV 和顶点的单独索引
在 Android 上为 OpenGL 创建缓冲区时，有什么方法可以为 UV 使用与顶点不同的索引吗？例如，如果您有 5000 个顶点和 12000 个 UV，并且不希望只为每个唯一的 UV 顶点对
详解NGINX如何统计网站的PV、UV、独立IP
Nginx: PV、UV、独立IP 做网站的都知道，平常经常要查询下网站PV、UV等网站的访问数据，当然如果网站做了CDN的话，nginx本地的日志就没什么意义了，下面就对nginx网站的日志访问
3d - 计算任意网格的平面 UV 坐标
我有从二维形状生成三角形网格的代码。因为在大多数情况下这些形状在表面上的顶点分布不均匀，所以我在生成 UV 时遇到了问题，因此它不会导致纹理失真。任何人都可以推荐一些讨论平面网格上 UV 计算技术的文
javascript - 声明 UV 球的索引
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 4 年前。 Improve th
python - 如何在 UV 贴图边缘获取数据并进行编辑？
我有一张 UV 贴图: 我想像这样在连接的网格边周围获取纹理像素(以红色选中): 如何使用 Python Blender API 做这样的事情？最佳答案制作“UV”bmesh 给定上面带有 UV
webgl - 位移贴图 UV 贴图？
摘要我正在尝试将位移贴图(高度贴图)应用于一个相当简单的对象(六角形平面)，并且得到了一些意想不到的结果。我使用的是灰度，因此，我的印象是我的高度图应该只影响网格的 Z 值。然而，我创建的置换贴图在
python - 如何在 UV 贴图边缘获取数据并进行编辑？
我有一张 UV 贴图: 我想像这样在连接的网格边周围获取纹理像素(以红色选中): 如何使用 Python Blender API 做这样的事情？最佳答案制作“UV”bmesh 给定上面带有 UV
opengl - 为什么获取多重采样纹理需要整数 UV 坐标
在对多重采样纹理进行采样时，我们必须使用整数坐标，即 ivec2 Texcoord = ivec2(textureSize(texsampler) * In.Texcoord); vec4 color
c++ - 如何插入 UV 坐标？
我正在尝试将纹理应用于我的 .md2 模型。我使用 Gouraud 着色给它上色(底部/顶部平面三角形的标准算法)，我必须使用类似的代码来处理纹理坐标 U 和 V。但我真的不明白如何对它们进行插值。从
scala - 为什么要通过@uV 禁用方差检查？
这个问题在这里已经有了答案: When is @uncheckedVariance needed in Scala, and why is it used in GenericTraversableT
c# - 将 UV 映射到凸起的三角形带
我不知道“膨胀”是否是正确的术语，但这是我现在能想到的全部。我正在尝试沿着三角形 strip 映射一个 1 像素宽(尽管从技术上讲每个纹理都会有这个问题)的图像来模拟激光。当它完全均匀且正方形时，它看
c# - 计算程序生成的圆形网格的 uv 纹理坐标
我正在尝试为我在代码中生成的网格计算 uv。这是一个非常简单的圆圈 (2d) 我想像下面这样构造它并将此代码用于 uvs uvs[i] = new Vector2((verts[i].x+radiu
javascript - 获取纹理在 UV 坐标处的颜色
我正在使用三个 v.73我有来自 raycaster 交叉点的 UV 坐标。我也有这个物体的纹理。我怎样才能在 UV 坐标处获得所用纹理的颜色(RGB 或 RGBA)？我曾尝试使用从纹理中获取图像的
c++ - 识别展开的网格 UV 区域
假设我们有一个 3D 网格，每个顶点都有纹理坐标，所以如果我渲染它展开，我会得到这样的东西(忽略红色方 block ): 现在我正在尝试找到合适的算法来使用顶点 UV 唯一标识这些区域并存储具有此唯一
c# - 为什么所有立方体的纹理 UV 贴图都发生了变化？
我正在尝试在 Unity 中更改和调整放置在 bilt-in 立方体面上的纹理。没有任何问题，我设法用这段代码在每张脸上放置不同的图像: void Start() { Mesh mesh =

首页

博学

6Ren·AI

商城