data-structures - 布隆过滤器的替代品-6ren

data-structures - 布隆过滤器的替代品

转载作者：行者123 更新时间：2023-12-04 14:28:11

25

4

我曾尝试使用布隆过滤器进行成员资格测试。我希望对 800 亿个条目执行成员资格测试，只允许发生大约 100 次碰撞，即只有 100 个条目可以给出误报结果。

我知道这可以通过布隆过滤器来实现，但使用确定每个条目所需的位数和给定允许误报率的哈希函数数量的公式。我想我最终会使用 270 GB 的内存和 19 个哈希函数。

我还查看了 Cuckoo 过滤器，但它的内存要求与我的要求不符。我的要求如下:

每个元素最多使用 6 位

使用不超过 7-8 个哈希函数。

有人可以向我建议一种概率数据结构，而不是上面提到的可以帮助实现我的要求的数据结构吗？

最佳答案

散列函数数量的问题并不是真正的问题 - 只需选择一个具有多位输出的单个散列函数并将这些位分开，就好像它们来自单独的散列函数一样。您真正的问题是误报率与存储空间的权衡。

你说过

I wish to perform membership tests on 80 billion entries with only allowing around 100 collisions to happen i.e., only 100 entries can be given a false positive result.

根据定义， map 中的条目可能不是假积极的一面。他们是真积极的一面。

那么问题是“100 个误报占据了多少条目
您打算测试什么？”如果答案也很奇怪，800 亿，那么您要求的误报率约为 100/80,000,000,000 = 1/800,000,000，小于 2^-29。

任何近似隶属度数据结构(如布隆过滤器或布谷鸟过滤器)的最小空间为 n lg 1/ε 位，其中 n 是结构中的元素数，lg 是以 2 为底的对数，ε 是误报率。换句话说，每个元素需要超过 29 位才能实现误报率，例如每 800 亿个中有 100 个。每个元素 6 位将使您获得 1.56% 的误报率 充其量 .即每 800 亿人中有 12.5 亿人，即每 6400 人中有 100 人。

据我所知，没有已知的实用数据结构可以接近实现这一目标。例如，布隆过滤器不会，因为它们每个项目使用超过 lg 1/ε 位。 Cuckoo 过滤器不会，因为它们每个项目至少使用两个额外的元数据位，并且每个项目的比特率与 lg n 成比例。

关于data-structures - 布隆过滤器的替代品，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41280389/

25

4

0

文章推荐： xcode - 将 Assets 目录复制到另一个项目

文章推荐： C# HttpClient 在 Patch 请求中返回 415 Unsupported media type

c - HiC : Structure within Structure?
这是我第一次在结构中使用结构。我在编译我的程序时遇到了这个错误。错误:字段“结果”的类型不完整。错误是指这行代码。-->结构result_t结果；有什么帮助吗？ :)谢谢。 typedef str
C : Acessing a structure within a structure
typedef struct mensagem { int sender ; int receiver ; char *text ; } *Item ; typedef str
structure - 如何使用 ExpressionEngine 的 Structure 插件生成多级导航栏？
我正在使用 ExpressionEngine 和 Structure 附加组件的最新版本。我正在寻找有关生成 4 项导航栏的帮助，其中两项位于不同的结构级别。我的结构行如下所示: 服务(父) --
data-structures - 效率 : What data structure to use. ..？
我正在处理一个非常大的数据集。本质上，我将处理数百万条记录并将值存储到数据集中。每次我存储一个值时，我必须首先检查以确保该值不在数据结构中。如果值在数据结构中，我必须更新(或删除/添加)记录以更新计
python - 值错误: The two structures don't have the same nested structure
我正在尝试分别使用视频帧和音频来分析视频，我想出了一个看起来像这样的模型现在，我将训练数据分成两个生成器 - 一个用于视频，一个用于音频。我必须进一步将生成器分成两半，我认为这是我遇到错误的地方。因
c - LP线程 : Pointer to a structure or address of a structure?
我有一个创建 N 个进程的程序，每个进程创建 M 个线程。我还有一个结构需要传递给线程函数。当我像这样创建 M 个线程时: thread_args_t** thread_arg = malloc(
Passing pointer to ctypes.Structure(将指针传递给ctye.Structure)
我正在试图弄清楚如何实现一个等待事件发出信号的函数。指针由DLL函数返回，该函数是存储3个项的结构。其中两个是句柄，它们只是指针，最后是一些随机的未使用的指针。我真的不确定这应该如何格式化，因为我两个
data-structures - PLC-ST : How to initialize a structure in declaration?
根据PLCOpen、IEC-61131标准，是否可以在声明中初始化结构体？我正在考虑类似于 this C++ question 的事情. 最佳答案您可以在结构声明时向结构变量添加默认值。您还可以在
C语言: implementing a if-then-else-if structure using a nested if-then-if structure
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 数据设计: better to nest structures or pointers to structures?
在纯 C 中工作，将结构嵌套在其他结构或指向结构的指针中更好。使用指针可以更容易地实现良好的对齐，但是访问内部结构需要额外的取消引用。只是具体地说: typedef struct {
C++ : Copy Array of Structure and return the array of structure
我正在使用 Qt Creator 开发应用程序。我不是一个好的C++程序员，所以可能会有概念上的错误等。我在复制结构数组并返回结构时遇到问题。有很多与类似标题相关的解决方案，但无法解决我的问题。
spark-structured-streaming - Spark Structured streaming - dropDuplicates with watermark备选方案
我正在尝试使用带水印的 dropDuplicate 函数对流数据进行重复数据删除。我目前面临的问题是我必须为给定记录设置两个时间戳一个是事件时间戳 - 从源创建记录的时间戳。另一个是传输时间戳 -
data-structures - 谁说的 "data structure(s) is half the code"？
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈，无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开，visit the help center . 10年前关
python - tensorflow ，tf.while_loop : The two structures don't have the same nested structure
我尝试构建一个嵌套循环，用于创建 2 维零矩阵来解决 LCS 问题(动态规划)。这后来用于计算 Rouge-L 分数(输入是张量，而不是字符串)，但它总是出错引发 ValueError: The tw
spark-structured-streaming - 是否可以在没有 HDFS 的情况下使用 Spark Structured Streaming？
我曾多次使用 HDFS 和 Kafka，我注意到 Kafka 比 HDFS 更可靠。因此，现在使用 Spark-structured-streaming 时，我很惊讶检查点仅适用于 HDFS。使用 K
c - "structure with flexible array member shall not be a member of a structure"的基本原理是什么？
C11，6.7.2.1 结构和 union 说明符，约束，3(添加了强调): A structure or union shall not contain a member with incomple
data-structures - Emacs Lisp : Standard way to verify tree structures?
在 emacs lisp 中，各种树结构是常见的。 custom.el通过:type提供论据 defcustom定义自定义变量的预期形状的标准方法。但是有没有一种标准的方法来验证一些随机 emacs
data-structures - 面试问题: data structure to set all values in O(1)
我在网上遇到了以下面试问题。描述一个数据结构，其中 getValue(int index)、setValue(int index, int value) 和 setAllValues(int val
sql - data.frame structure fubar : structure says most character, 打印说只有一些
我正在使用 sqldf 对一个巨大的文件进行子集化。以下命令为我提供了一个 100 行和 42 列的 data.frame。 first <- read.csv.sql("first.txt", se
c++ - 有什么区别: Creating structure pointer inside a structure of the same type with the keyword struct
来自这里的 C++ 背景。我需要为我的一门类(class)编写 C 语言，但我从未接触过这一类(class)。这两个声明之间有什么区别？为什么要包含 struct 关键字？有不同的含义吗？它们在 C+

首页

博学

6Ren·AI

商城

data-structures - 布隆过滤器的替代品