- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
变得更大听起来很奇怪,但这就是我正在努力做的。我想获取整个 16 位整数序列,并以统一映射到 256 位空间的方式对每个整数进行哈希处理。
这样做的原因是我试图将 16 位数字空间的子集放入 256 位布隆过滤器中,以进行快速成员资格测试。
我可以对每个整数使用一些众所周知的散列函数,但我正在寻找一种极其高效的实现(只需几条指令),以便它在 GPU 着色器程序中运行良好。我觉得已知哈希输入仅为 16 位这一事实可以告知哈希函数是以某种方式设计的,但我没有看到解决方案。
有什么想法吗?
编辑
根据回复,我原来的问题令人困惑。对于那个很抱歉。我将尝试用一个更具体的例子来重申它:
我有一个来自集合 S 的 n 个数字的子集 S1,它在 (0, 2^16-1) 范围内。我需要用一个由单个散列函数构造的 256 位布隆过滤器来表示这个子集 S1。布隆过滤器的原因是空间考虑。我选择了 256 位布隆过滤器,因为它符合我的空间要求,并且误报概率足够低。我正在寻找一个非常简单的哈希函数,它可以从集合 S 中获取一个数字并用 256 位表示它,这样每一位都具有大致相等的概率为 1 或 0。
散列函数要求简单的原因是这个散列函数必须为每个像素运行数千次,所以在任何可以修剪指令的地方都是一个胜利。
最佳答案
如果您将一个 16 位值乘以(使用 uint32_t
)介于 2^31 和 2^32 之间的质数(或任何奇数)p
,则您“可能”在 32 位空间中相当均匀地涂抹结果。然后你可能想添加另一个质数,以防止 0
映射到 0
(你希望每个位都有相同的概率为 0
或 1
,2^256 中只有一个输入值应该输出全零,并且由于只有 2^16 个输入,这意味着您不希望它们都输出全零)。
这就是如何通过一次操作将 16 位扩展为 32 位(加上加载常量所需的任何指令)。使用四个不同的值 p1
... p4
获得 256 位,并使用不同的 p
值运行一些测试以找到好的(即那些考虑到您正在编码的集合的大小并假设一个理想的散列函数,它产生的误报不会比您对 Bloom 过滤器的预期更多。例如,我很确定 -1
是一个错误的 p 值。
不过,无论这些值有多好,您都会看到一些相关性:例如,正如我在上面所描述的那样,所有 4 个独立值的最低位将相等,这是一个非常严重的依赖关系。所以你可能想要更多的“混合”操作。例如,您可能会说最终输出的每个字节应该是我所描述的两个字节的异或(而不是两个最不重要的字节!),只是为了摆脱简单的算术关系。
不过,除非我误解了这个问题,否则布隆过滤器通常不是这样工作的。通常您希望您的散列为每个输入生成精确固定数量的设置位,并且计算误报率的所有算法都依赖于此。这就是为什么对于大小为 256 位的布隆过滤器,您通常会有 k
8 位散列,而不是一个 256 位散列。 k
通常小于过滤器大小的一半(以位为单位)(最佳值是过滤器中每个值的位数乘以 ln(2)
,即约 0.7)。所以通常您不希望每个位为 1 的概率高达 0.5。
原因是,一旦您将少至 4 个这样的 256 位值组合在一起,过滤器中的几乎所有位都已设置(其中 16 个位中有 15 个位)。所以您已经看到了很多误报。
但是,如果您已经完成数学运算并且对单个哈希函数产生可变数量的设置位平均一半感到满意,那么就足够了。或者数字 256 的两次出现只是巧合,因为对于您选择的集合大小,k
恰好是 32,而您实际上将 256 位散列用作 32 8 位哈希?
[编辑:你的评论澄清了这一点,但无论如何 k
不应该太高以至于你总共需要 256 位哈希。显然,在这种情况下,使用每个值超过 16 位(即少于 16 个值)的布隆过滤器没有意义,因为使用相同的空间量,您可以只列出值,并且误报率为 0。 A每个值 16 位的过滤器给出的误报率约为 2200 分之一。即使在那里,最佳 k
也仅为 23,也就是说,您应该在过滤器中为集合中的每个值设置 23 位.如果您希望集合大于 16 个值,那么您希望为每个元素设置更少的位,并且您将获得更高的误报率。]
关于c++ - 有效地将 16 位整数哈希到 256 位空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21080965/
我收到未知数据,我想以编程方式查看相关性,并将所有完全相关的变量组合在一起(忽略方向)。在下面的数据集中,我可以手动查看相关性并说 a, f, g, h一起去吧b, d, e .我怎样才能以编程方
这个问题在这里已经有了答案: use dplyr's summarise_each to return one row per function? (3 个答案) 关闭 4 年前。 作为探索性工作的
我想要完成的是使用数组存储未知大小的多项式。我在互联网上看到的是使用一个数组,每个单元格都包含系数,度数是单元格编号,但这不是有效的,因为如果我们有一个多项式,如:6x^14+x+5。这意味着我们将从
嘿伙计们,我一直在尝试解析 HTML 文件以从中抓取文本,但时不时地,我会得到一些非常奇怪的字符,例如 à€œ。我确定是“智能引号”或弯头标点符号导致了我的所有问题,因此我的临时修复是搜索所有这些字符
我原来的 data.table 由三列组成。 site、observation_number 和 id。 例如以下是 id = z 的所有观察结果 |site|observation_number|i
"Premature optimisation is the root of all evil (but it's nice to have once you have an ugly solutio
给定这个数组 X: [1 2 3 2 3 1 4 5 7 1] 和行长度数组R: [3 2 5] 表示转换后每行的长度。 我正在寻找一个计算效率高的函数来将 X reshape 为数组 Y: [[ 1
我有一些 data.frame s: # Sample data a <- data.frame(c(1:10), c(11:20)) names(a) <- c("A", "B") b <- dat
我有点困惑。列表擅长任意位置插入,但不善于随机访问? (怎么可能)如果你不能随机访问,你怎么知道在哪里插入? 同样,如果你可以在任何位置插入,为什么你不能从那个位置高效地读取? 最佳答案 如果您已经有
我有一个向量,我想计算它的移动平均值(使用宽度为 5 的窗口)。 例如,如果有问题的向量是[1,2,3,4,5,6,7,8],那么 结果向量的第一个条目应该是 [1,2,3,4,5] 中所有条目的总和
有一个随机整数生成器,它生成随机整数并在后台运行。需求设计一个API,调用时返回当时的簇数。 簇:簇是连续整数的字典顺序。例如,在这种情况下,10,7,1,2,8,5,9 簇是 3 (1,2--5--
我想做的是将一组 (n) 项分成大小相等的组(大小为 m 的组,并且为简单起见,假设没有剩余,即 n 可以被 m 整除)。这样做多次,我想确保同一组中的任何项目都不会出现两次。 为了使这稍微更具体一些
假设我有一些包含类型排列的模板表达式,在本例中它们来自 Abstract Syntax Tree : template
我已经在这方面工作了几天,似乎没有我需要的答案。 由于担心这个被标记为重复,我将解释为什么其他问题对我不起作用。 使用 DIFFLIB for Python 的任何答案都无助于我的需求。 (我在下面描
我正在使用 NumPy 数组。 我有一个 2N 长度向量 D,并希望将其一部分 reshape 为 N x N 数组 C. 现在这段代码可以满足我的要求,但对于较大的 N 来说是一个瓶颈: ``` i
我有一个问题: 让我们考虑这样的 pandas 数据框: Width Height Bitmap 67 56 59 71 61 73 ...
我目前正在用 C 语言编写一个解析器,设计它时我需要的东西之一是一个可变字符串“类”(一组对表示实例的不透明结构进行操作的函数),我将其称为 my_string。 string 类的实例只不过是包装
假设我在 --pandas-- 数据框中有以下列: x 1 589 2 354 3 692 4 474 5 739 6 731 7 259 8 723
我有一个成员函数,它接受另一个对象的常量引用参数。我想 const_cast 这个参数以便在成员函数中轻松使用它。为此,以下哪个代码更好?: void AClass::AMember(const BC
我们目前正在将 Guava 用于其不可变集合,但我惊讶地发现他们的 map 没有方法可以轻松创建只需稍作修改的新 map 。最重要的是,他们的构建器不允许为键分配新值或删除键。 因此,如果我只想修改一
我是一名优秀的程序员,十分优秀!