data-structures - 位数组有哪些替代方案？-6ren

data-structures - 位数组有哪些替代方案？

转载作者：行者123 更新时间：2023-12-04 04:56:33

25

4

我有一个信息检索应用程序，可以创建大约10百万个比特的比特数组。阵列中“置位”位的数量变化很大，从全部清除到全部置位。当前，我使用的是简单的位数组(java.util.BitSet)，所以我的每个位数组都占用几兆字节。

我的计划是查看前N位的基数，然后决定要为其余部分使用哪种数据结构。显然，某些数据结构更适合于稀疏的位数组，而另一些数据结构则设置了大约一半的位(当设置了大多数位时，我可以使用负数将其视为稀疏的零集)。

在每个极端情况下，哪种结构可能很好？

中间有什么吗？

以下是一些限制或提示:

这些位仅按索引顺序设置一次。

我需要100％的准确性，所以像Bloom过滤器这样的东西还不够好。

建立集合后，我需要能够有效地迭代“集合”位。

这些位是随机分布的，因此游程长度编码算法不可能比简单的位索引列表好得多。

我正在尝试优化内存利用率，但是速度仍然会带来一些负担。

带有开源Java实现的东西很有帮助，但并非绝对必要。我对基础知识更感兴趣。

最佳答案

除非数据真正是随机的并且具有对称的1/0分布，否则这将简单地成为无损数据压缩问题，并且非常类似于用于黑白(即:二进制)FAX图像的CCITT组3压缩。 CCITT组3使用霍夫曼编码方案。对于FAX，它们使用固定的霍夫曼代码集，但是对于给定的数据集，您可以为每个数据集生成特定的代码集，以提高压缩率。只要您隐含地只需要顺序访问这些位，这将是一种非常有效的方法。随机访问会带来一些其他挑战，但是您可能会生成一个二进制搜索树索引，指向数组中的各个偏移点，这将使您能够接近所需的位置，然后从那里进入。

注意:即使1/0分布不是很均匀，即使数据是随机的，霍夫曼方案仍然可以正常工作。即，分布越不均匀，压缩率越好。

最后，如果这些位是真正随机且分布均匀的，那么，根据克劳德·香农先生的说法，您将无法使用任何方案将其压缩得很大。

关于data-structures - 位数组有哪些替代方案？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36106/

25

4

0

文章推荐： web-applications - 存储登录的用户详细信息

文章推荐： maven - 为所有插件执行指定默认目标

文章推荐： d3.js - 行点击事件？

文章推荐： statistics - 如何实时可视化日志文件？

方案:从一组三个数字中返回两个最大的数字
我应该编写一个函数来打印一组给定的三个数字中两个较大数字的平方和。我对这种情况的处理相当笨拙。我没有编写返回一组 3 中最大的两个数字的函数，而是编写了函数，以便表达式减少到两个所需的数字。 # S
方案:位置上的类型参数错误
如果有人可以提供帮助，我将不胜感激。我一直在敲我的头一天试图让这个工作。我已经在互联网上搜索并重新阅读了手册，但我就是不明白。 guile << __EOF__ ( define heading-li
方案 - 使用列表列表
目前我正在处理一个方案问题，其中我们正在使用方案列表表示一个图。我们使用的第一个变体是表示为的边列表图 '((x y) (y z) (x z)) 我们正在使用的图的第二个变体被称为 x 图，表示为
方案 - 从参数顺序运行两个过程？
我正在尝试创建一个函数，该函数将两个函数作为参数并执行它们。我尝试使用 cond ，但它只执行 action1 . (define seq-action (lambda (action1 act
方案，何时使用符号而不是字符串？
我提前为我的原始英语道歉；我会尽量避免语法错误等。两周前，我决定更新我对 Scheme(及其启示)的知识，同时实现我在手上获得的一些数学 Material ，特别是我注册的自动机理论和计算类(cla
方案 - 分数的余数
Scheme中有没有函数支持分数的“div”操作？意思是 - 11 格 2.75 = 4。最佳答案我认为你的问题的答案是:没有，但你可以定义它: #lang racket (define (di
方案:如何将列表拆分为奇数条目和偶数条目的两个列表？
我在scheme中实现合并排序，我必须通过定义两个辅助方法来实现:merge和split。 Merge 需要两个列表(已经按递增顺序)并将它们合并在一起。我这样做了如下: (define merge
方案:似乎无法加载文件
尝试从终端加载方案文件。我创建了一个名为 test.scm 的文件，其中包含以下代码: (define (square x) (* x x)) (define (sum-of-squares x y)
方案 - 计算列表中的元素
我有以下代码: (define (howMany list) (if (null? list) 0 (+ 1 (howMany (cdr list))))) 如果我们执行以
方案 - 转换为连续传递样式
我有点了解如何将基本函数(例如算术)转换为Scheme中的连续传递样式。但如果函数涉及递归怎么办？例如， (define funname (lambda (arg0 arg1)
方案 - 字符串追加两个字符串列表
我正在尝试附加两个字符串列表但我不知道如何在两个单词之间添加空格。 (define (string-concat lst1 lst2) (map string-append lst1
方案 - 将列表的元素解压到函数中
这个问题已经有答案了: How do I pass a list as a list of arguments in racket? (2 个回答) 已关闭 8 年前。我有一个函数，它需要无限数量的
方案:与集合混淆!
我对这段代码的工作方式感到困惑: (define m (list 1 2 3 '(5 8))) (let ((l (cdr m))) (set! l '(28 88))) ==>(1 2 3 (5 8
方案:添加到记录列表
我正在为学校做一项计划作业，有一个问题涉及我们定义记录“类型”(作为列表实现)(代表音乐记录)。我遇到的问题是我被要求创建一个过程来创建这些记录的列表，然后创建一个将记录添加到该列表的函数。这很简单
方案 - 计算列表中的元素
我有以下代码: (define (howMany list) (if (null? list) 0 (+ 1 (howMany (cdr list))))) 如果我们执行以
方案 - 字符串追加两个字符串列表
我正在尝试附加两个字符串列表但我不知道如何在两个单词之间添加空格。 (define (string-concat lst1 lst2) (map string-append lst1
方案:使用不带递归的抽象列表函数
如何使用抽象列表函数(foldr、foldl、map 和 filter 编写函数)，无需递归，消耗数字列表 (list a1 a2 a3 ...) 并产生交替和 a1 - a2 + a3 ...？最
方案 - 定义列表与符号
我试图找出在 Scheme 中发生的一些有趣的事情: (define last-pair (lambda (x) (if (null? (cdr x))
方案:列表计数器
这个问题在这里已经有了答案: Count occurrence of element in a list in Scheme? (4 个答案) 关闭 8 年前。我想实现一个函数来计算列表中元素出现
方案 - 使用表格的导数
我正在尝试使用下面的代码获取方案中的导数。谁能告诉我哪里出错了？我已经尝试了一段时间了。 (define d3 (λ (e) (cond ((number? e) 0) ((e

首页

博学

6Ren·AI

商城

data-structures - 位数组有哪些替代方案？