Redis系列17：聊聊布隆过滤器（实践篇）

转载作者：我是一只小鸟更新时间：2023-06-14 22:32:08

26

4

Redis系列1：深刻理解高性能Redis的本质 Redis系列2：数据持久化提高可用性 Redis系列3：高可用之主从架构 Redis系列4：高可用之Sentinel(哨兵模式） Redis系列5：深入分析Cluster 集群模式追求性能极致：Redis6.0的多线程模型追求性能极致：客户端缓存带来的革命 Redis系列8：Bitmap实现亿万级数据计算 Redis系列9：Geo 类型赋能亿级地图位置计算 Redis系列10：HyperLogLog实现海量数据基数统计 Redis系列11：内存淘汰策略 Redis系列12：Redis 的事务机制 Redis系列13：分布式锁实现 Redis系列14：使用List实现消息队列 Redis系列15：使用Stream实现消息队列 Redis系列16：聊聊布隆过滤器（原理篇）。

1 介绍

布隆过滤器（Bloom Filter）是 Redis 4.0 版本提供的新功能，我们一般将它当做插件加载到 Redis 服务器中，给 Redis 提供强大的去重功能。它是一种概率性数据结构，可用于判断一个元素是否存在于一个集合中。相比较之 Set 集合的去重功能，布隆过滤器空间上能节省 90% +，不足之处是去重率大约在 99% 左右，那就是有 1% 左右的误判率，这种误差是由布隆过滤器的自身结构决定的.

优点：空间效率和查询时间都比一般的算法要好的多
缺点：有一定的误识别率和删除困难

2 使用场景介绍

我们在遇到数据量大的时候，为了去重并避免大批量的重复计算，可以考虑使用 Bloom Filter 进行过滤。具体常用的经典场景如下:

解决大流量下缓存穿透的问题，参考笔者这篇《一次缓存雪崩的灾难复盘》。
过滤被屏蔽、拉黑、减少推荐的信息，一般你在浏览抖音或者百度App的时候，看到不喜欢的会设置减少推荐、屏蔽此类信息等，都可以采用这种原理设计。
各种名单过滤，使用布隆过滤器实现第一层的白名单或者黑名单过滤，可用于各种AB场景。

下面以缓存穿透为解决目标进行讲解.

3 实战介绍

缓存穿透是指访问一个不存在的key，缓存不起作用，请求会穿透到DB，流量井喷时会导致DB挂掉。比如我们查询用户的信息，程序会根据用户的编号去缓存中检索，如果找不到，再到数据库中搜索。如果你给了一个不存在的编号：XXXXXXXX，那么每次都比对不到，就透过缓存进入数据库。这样风险很大，如果因为某些原因导致大量不存在的编号被查询，甚至被恶意伪造编号进行攻击，那将是灾难。解决方案质疑就是在缓存之前在加一层 BloomFilter :

把存在的key记录在BloomFilter中，在查询的时候先去 BloomFilter 去查询 key 是否存在，如果不存在则说明数据库和缓存都没有，就直接返回，
存在再走查缓存，投入数据库去查询，这样减轻了数据库的压力。

3.1 巨量查询信息案例解析

下面以火车票订购和查询为案例进行说明，如果火车票被恶意攻击，模拟了一模一样的火车票订单编号，那很可能通过大量的请求穿透过缓存层把数据库打雪崩了，所以使用布隆过滤器为服务提供一层保障。具体的做法就是，我们在购买火车票成功的时候，把订单号的ID写入（异步或者消息队列的方式）到布隆过滤器中，保障后续的查询都在布隆过滤器中走一遍再进到缓存中去查询。火车票订单Id同步到 Bloom Filter 的步骤如下:

3.2 创建Bloom Filter的方式

创建 Bloom Filter 的语法如下:

                        
                          # BF.RESERVE {key} {error_rate} {capacity} [EXPANSION {expansion}] [NONSCALING]
BF.RESERVE ticket_orders 0.01 1000000

key：布隆过滤器的名字，这边指的是创建一个名为 ticket_orders 的过滤器。
error_rate：期望的错误率，默认值为 0.1，值越低，需要的空间越大。就像我们上一节说的，空间越大碰撞的可能性越低。
capacity：初始的空间容量，默认值为 100，当实际元素的数量超过这个初始化容量时，碰撞的可能性越高，误判率也越高。
EXPANSION：可选参，数据达到初始容量后，布隆过滤器会自动创建一个子过滤器，大小为上一个过滤器乘以 expansion。expansion 的默认值为 2，也就是说默认扩容2倍；
NONSCALING：可选参，指的是数据达到初始容量后，不会扩容过滤器，并抛出异常（(error) ERR non scaling filter is full）。

而上面那句命令是，通过BF.RESERVE命令手动创建一个名字为 ticket_orders，错误率为 0.01 ，初始容量为 1000000 的布隆过滤器。这边需要注意的一些点是:

error_rate 越小，对碰撞的容忍度越小，需要的存储空间就越大。如果允许一定比例的不准确，对精确度要求不高的场景，error_rate 可以设的稍大一点。
capacity 设置的过大，会浪费存储空间，设置过小，准确度不高。所以评估的时候需要精准一点，既要避免浪费空间也要保证准确比例。

3.3 添加火车票订单Id到Bloom Filter

                        
                          # BF.ADD {key}  {value ... }

# 添加单个订单号
BF.ADD ticket_orders 2023061008795
(integer) 1

# 添加多个订单号
BF.MADD ticket_orders 2023061008796 2023061008797 2023061008798
1) (integer) 1
2) (integer) 1
3) (integer) 1

以上的语句是将已经订好的车票订单号存储到Bloom Filter中，包括一次存储单个和一次存储多个.

3.4 判断火车票订单Id是否存在

                        
                          # BF.EXISTS {key} {value} ，存在的话返回 1，不存在返回 0
BF.EXISTS ticket_orders 2023061008795
(integer) 1

# 批量判断多个值是否存在于布隆过滤器，语句如下：
BF.MEXISTS ticket_orders 2023061008796 2023061008797 2023061008798
1) (integer) 0
2) (integer) 1
3) (integer) 0

BF.EXISTS 判断一个元素是否存在于 Bloom Filter中，返回值 = 1 表示存在，返回值 = 0 表示不存在。可以一次性判断单个元素，或者一次性判断多个元素.

3.5 Review已建的布隆过滤器列表

                        
                          # 使用 BF.INFO {key} 语法查看

BF.INFO ticket_orders
 1) Capacity
 2) (integer) 1000000
 3) Size
 4) (integer) 3
 5) Number of filters
 6) (integer) 1
 7) Number of items inserted
 8) (integer) 3
 9) Expansion rate
10) (integer) 2

返回值解析： Capacity：预设容量，我们前面设置了1000000。 Size：实际占用情况，我们前面设置了3个值：2023061008796、 2023061008797、 2023061008798。 Number of filters：过滤器的层数。 Number of items inserted：实际已插入的元素数量。 Expansion rate：子过滤器扩容的系数，咱们前面创建的时候未设值，所以这边是默认 2.

综上，我们通过 BF.RESERVE、BF.ADD、BF.EXISTS、BF.INFO 等几个指令就能实现布隆过滤器的建设，避免缓存穿透的情况发生。因为你查询缓存的时候，必然你先到Bloom Filter中先过滤一次，这样就不会因为无效的key把缓存打穿.

4 程序实现说明

Spring Boot版本： 2.5.x.

4.1 添加 Redission Maven 依赖

如果实际情况可以使用更高版本。

                        
                          <dependency>
  <groupId>org.redisson</groupId>
  <artifactId>redisson-spring-boot-starter</artifactId>
  <version>3.17.1</version>
</dependency>

4.2 Spring boot Yaml中的 Redission 配置

                        
                          spring:
  application:
    name: redission
  redis:
    cluster:
      nodeAddresses: [
          "redis://127.0.0.1:8000",
          "redis://127.0.0.1:8001",
          "redis://127.0.0.1:8002",
          "redis://127.0.0.1:8003",
          "redis://127.0.0.1:8004",
          "redis://127.0.0.1:8005"
      ]
    password: ********
    single:
      address: "redis://127.0.0.1:6379"
      database: 6

4.3 创建布隆过滤器相关

                        
                          @Service
public class BloomFilterService {

    @Autowired
    private RedissonClient redissonClient;
	
    /**
     * 创建布隆过滤器
     * @param filterKey 过滤器名称，等同上面的key
     * @param expectedCapacity  预计元素容量，等同于上面的capacity
     * @param falseRate 允许的误判率，等同于上面的error_rate
     * @param <T>
     * @return
     */
    public <T> RBloomFilter<T> create(String filterKey, long expectedCapacity, double falseRate) {
	    // 集群模式
	    RClusteredBloomFilter<T> bloomFilter = redissonClient.getClusteredBloomFilter(filterKey);
        // 以下是单实例模式
		// RBloomFilter<T> bloomFilter = redissonClient.getBloomFilter(filterKey);
        bloomFilter.tryInit(expectedCapacity, falseRate);
        return bloomFilter;
    }
}

4.4 测试实现

                        
                              @Autowired
    private BloomFilterService bloomFilterService;

    @Test
    public void testBloomFilter() {
        // 预计元素容量 1000000
        long expectedCapacity = 1000000L;
        // 错误率
        double falseRate = 0.01;
        RBloomFilter<Long> bloomFilter = bloomFilterService.create("ticket_orders", expectedCapacity, falseRate);

        // 元素增加测试并输出统计
        for (long idx = 0; idx < expectedCapacity; idx++) {
            bloomFilter.add(idx);
        }
        long eleCount = bloomFilter.count();
        log.info("eleCount = {}.", elementCount);
    }

5 总结

本篇介绍了布隆过滤器的几种实现场景。并以火车票订单信息查询为案例进行说明，如何使用布隆过滤器避免缓存穿透，避免被恶意攻击.

最后此篇关于Redis系列17：聊聊布隆过滤器（实践篇）的文章就讲到这里了,如果你想了解更多关于Redis系列17：聊聊布隆过滤器（实践篇）的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐：揭秘Task.Wait

文章推荐： HStore表全了解：实时入库与高效查询利器

文章推荐：软件工程：说透软件5种常见的部署策略

文章推荐： Kubernetes(k8s)包管理工具Helm：Helm包管理

redis - Redis 服务器崩溃时如何接收 Redis 发布消息
我有一个关于 Redis Pubsub 的练习，如下所示: 如果发布者发布消息但订阅者没有收到服务器崩溃。订阅者如何在重启服务器时收到该消息？请帮帮我，谢谢! 最佳答案在这种情况下，消息将永远消失
redis - Redis 服务器重启后服务堆栈 Redis 重新连接
我们正在使用 Service Stack 的 RedisClient 的 BlockingDequeue 来保存一些数据，直到它可以被处理。调用代码看起来像 using (var client =
redis - 如何让一个 Redis 客户端等待所有其他 Redis 客户端响应？
我有一个 Redis 服务器和多个 Redis 客户端。每个 Redis 客户端都是一个 WebSocket+HTTP 服务器，其中包括管理 WebSocket 连接。这些 WebSocket+HTT
redis - 将数据从 Redis 独立实例移动到 Redis 集群
我有多个 Redis 实例。我使用不同的端口创建了一个集群。现在我想将数据从预先存在的 redis 实例传输到集群。我知道如何将数据从一个实例传输到集群，但是当实例多于一个时，我无法做到这一点。最佳
redis - 使用 Redis 集群自动故障转移到提升的 Redis Slave
配置:三个redis集群分区，跨三组一主一从。当 Master 宕机时，Lettuce 会立即检测到中断并开始重试。但是，Lettuce 没有检测到关联的 slave 已经将自己提升为 master
redis - 如何删除存储在给定 Redis 集中的 Redis 键？
我想根据从指定集合中检索这些键来删除 Redis 键(及其数据集)，例如: HMSET id:1 password 123 category milk HMSET id:2 password 456
redis - 有没有办法从 redis 获取所有禁用的 redis 命令的列表？
我正在编写一个机器人(其中包含要禁用的命令列表)，用于监视 Redis。它通过执行禁用命令，例如 (rename-command ZADD "")当我重新启动我的机器人时，如果要禁用的命令列表发生变化
redis - Redis(redis-py)可以处理多少个 channel ？
我的任务是为大量听众使用发布/订阅。这是来自 docs 的订阅的简化示例: r = redis.StrictRedis(...) p = r.pubsub() p.subscribe('my-firs
redis - 1 Redis 哨兵与多个 Redis 哨兵？
我一直在阅读有关使用 Redis 哨兵进行故障转移的内容。我打算有1个master+1个slave，如果master宕机超过1分钟，就把slave变成master。我知道这在 Sentinel 中是
redis - 分片常规 Redis 与 Redis 集群
与仅使用常规 Redis 和创建分片相比，使用 Redis 集群有哪些优势？在我看来，Redis Cluster 更注重数据安全(让主从架构解决故障)。最佳答案我认为当您需要在不丢失任何数据的情
redis - 即使 Redis key 已过期(但仍存在于 Redis 中)，是否可以获得 Redis key ？
由于 Redis 以被动和主动方式使 key 过期，有没有办法得到一个 key ，即使它的过期时间已过 (但在 Redis 中仍然存在 )？最佳答案 DEBUG OBJECT myKey 将返回
redis - 如何在 redis lua 脚本中运行 redis monitor 命令而不是 redis-cli monitor
我想用redis lua来实现monitor命令，而不是redis-cli monitor。但我不知道怎么办。 redis.call('monitor') 不起作用。最佳答案您不能从 Redis
redis - :Redis Replicated setup, Redis Cluster setup Redis Sentinel setup 和 Redis with Master with Slave only 有什么区别？[REDISSON]
我读过 https://github.com/redisson/redisson 我发现有几个 Redis 复制设置(包括对 AWS ElastiCache 和 Azure Redis 缓存的支持)
redis - Microsoft.AspNet.SignalR.Redis 需要 StackExchange.Redis.StrongName，但是 StackExchange.Redis.Extensions.Core 需要 StackExchange.Redis
Microsoft.AspNet.SignalR.Redis 和 StackExchange.Redis.Extensions.Core 在同一个项目中使用。前者需要StackExchange.Red
【Redis】Redis 安装启动使用流程
1. 认识 Redis Redis（Remote Dictionary Server）远程词典服务器，是一个基于内存的键值对型 NoSQL 数据库。特征：键值（key-value）型，value
【Redis】Redis 数据结构介绍
1. Redis 数据结构介绍 Redis 是一个 key-value 的数据库，key 一般是 String 类型，但 value 类型多种多样，下面就举了几个例子： value 类型示例 Str
【Redis】Redis 的缓存使用技巧（商户查询缓存）
1. 什么是缓存缓存（Cache）就是数据交换的缓冲区，是存贮数据的临时地方，一般读写性能较高。缓存的作用：降低后端负载提高读写效率，降低响应时间缓存的成本：数据一致性成本代码维护成本
redis - redis:使用joblib批量插入
我有一份记录 list 。对于我的每条记录，我都需要进行一些繁重的计算，因为我要在Redis中创建反向索引。为了达到到达记录，需要在管道中执行多个redis命令(sadd为100 s + set为1
redis - Redis Multi哨兵失败后不选举新的Redis主机
我有一个三节点Redis和3节点哨兵，一切正常，所有主服务器和从属服务器都经过验证，并且哨兵配置文件已与所有Redis和哨兵节点一起更新，但是问题是当Redis主服务器关闭并且哨兵希望选举失败者时再次
redis - Redis:如何计算已排序列表时间序列中的时间差？
我正在尝试计算Redis中存储的消息之间的响应时间。但是我不知道该怎么做。首先，我必须像这样存储chat_messages的时间流 ZADD conversation:CONVERSATION_ID

首页

博学

6Ren·AI

商城