java - 两个十六进制数的相似度-6ren

java - 两个十六进制数的相似度

转载作者：行者123 更新时间：2023-11-30 08:32:11

27

4

我正在尝试使用汉明和 Levenshtein 距离找到相似的哈希值(十六进制哈希值)。假设两个哈希值相似，如果它们的汉明距离小于 10(不同位数)。

Hash 1= ffffff (base 16)
Hash 2= fffff0 (base 16)

两个哈希之间的汉明距离是4。它们是相似的。因为，

Hash 1= 11111111 11111111 11111111 (base 2)
Hash 2= 11111111 11111111 11110000 (base 2)

我有 800 万个这样的哈希值。我想知道什么是适合存储 800 万个哈希值的数据结构。我最初尝试了“Trie”，但考虑了以下场景，

Hash 1 = 0fabde (00001111 10101011 11011110)
Hash 2 = adcbfe (10101010 11001011 11111110)

汉明距离为 7。所以我无法进行前缀搜索。

我知道我可以使用 XOR 和 Integer.bitCount() 来获取不同位数，但我有一个目标哈希和 800 万个哈希来搜索，即给定一个哈希，我必须在其中找到所有相似的哈希我们在存储库中拥有 800 万个哈希值。

有没有什么方法可以有效地存储哈希值，从而减少我的搜索基数？

最佳答案

如果散列像显示的那样小，您可以“直接”对它们进行索引 - 也就是说，将它们放在一个大数组中，然后对索引进行一些数学计算。

仅生成可能对应于请求的汉明距离 d 内的哈希值的索引非常简单，只需将 key 与包含最多 d 的所有掩码进行异或> 设置位(见下文)。由于有 800 万个哈希值，但可能只存在 1600 万个，因此预计大约一半的已访问索引是“有用的”，即可以找到一些东西。

要生成掩码，您可以使用旧的 NextBitPermutation技巧，之前已经在 StackOverflow 上发布过多次，例如 here .对于java，只需使用逻辑右移并将__builtin_ctz替换为numberOfTrailingZeros即可得到(未测试)

int t = v | (v - 1);
int w = (t + 1) | (((~t & -~t) - 1) >>> (Integer.numberOfTrailingZeros(v) + 1));

这里的 w 是 v 之后的位置换。

全局结构类似于(未测试)

for (int k = 1; k <= d; k++) {
    int diff = (1 << k) - 1;
    while (diff <= 0xFFFFFF) {
        if (hashes[key ^ diff])
            // do something with it
        diff = nextBitPermutation(diff);
    }
}

关于java - 两个十六进制数的相似度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40253731/

27

4

0

文章推荐： java - 如何使用 renjin 在 java 中绘图

文章推荐： javascript - ExtJS:网格和表单之间的两种方式绑定(bind)

文章推荐： java - 单线程在多核处理器上的数据可见性

Java 十六进制
我有一个消息 static int[] message = { 0x01, 0x10, 0x00, 0x01, // port addres 01 - 08
Python 十六进制
如何将十进制转换为以下格式的十六进制(至少两位，零填充，不带 0x 前缀)？输入:255 输出:ff 输入:2 输出:02 我尝试了 hex(int)[2:] 但它似乎显示了第一个示例而不是第二个示
Delphi编程将66位值(十六进制)转换为十进制
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Large numbers in Pascal (Delphi) 我正在尝试将 66 位值转换为十进制。我注意到d
elisp - 转换十进制<->十六进制
给定一个十进制数字列表，如何将每个数字转换为其等效的十六进制值，反之亦然？例如: (convert2hex 255 64 64)； ->(FF 40 40) (convert2dec FF 40 4
javascript - 将字符串化的数字解析回数字。十六进制
var color = Math.floor(Math.random() * 16777215).toString(16); var hex = Number.parseInt(col
numbers - 0x00000000 十六进制？
我一直被教导 0-9 代表 0 到 9 的值，A、B、C、D、E、F 代表 10-15。我看到这种格式 0x00000000，它不适合十六进制模式。有没有导游或导师可以解释一下？我在谷歌上搜索了十
c++ - 读取文件为二进制/十六进制
我目前正尝试像十六进制编辑器一样将文件读取为十六进制值。为了解释这个问题，让我们假设我有一个test.txt，里面有一个简单的“Hello world”。我正在尝试使用接近以下代码的程序以十六进制形式
jQuery - 获取元素背景颜色(十六进制)
我正在尝试获取元素背景颜色 $(document).ready(function(){ $.each('.log-widget',function(){ console.log($(t
Lua - 十六进制 float
0x40130020的十六进制值是 2.296883 的浮点值, 使用本网站 http://gregstoll.dyndns.org/~gregstoll/floattohex/ .这如何实现到 Lu
ios - 十六进制 - 什么编码？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，vis
c++ - 转换字符 > 十六进制
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
十六进制 float 表示的计算值
谁能解释一下我们如何计算十六进制浮点常量的值。我在看书，发现0x0.3p10代表值192。最佳答案指数仍以十进制表示，但底数为二，尾数为十六进制。所以 0.3P10 是 (3 × 16−1) ×
PHP - 根据给定变量计算颜色(十六进制)
我正在尝试创建一个标签云，需要帮助来创建一个函数来计算应用于每个标签链接所需的颜色。我有 3 个变量: 单个标签重要性(从 0.1 到 1) 最大(最重要)的标签颜色(十六进制代码，例如“fff00
c# - 最短编码，十六进制
大家好，我想发送尽可能短的字符串/值。如果我有以下内容 1)l23k43i221j44h55uui6n433bb4 2)124987359824369785493584379 3)kla^askdja
CSS 十六进制 RGBA？
我知道你会写... background-color: #ff0000; ...如果你想要红色的东西。你可以写... background-color: rgba(255, 0, 0, 0.5);
binary - 如何将我的二进制(十六进制)数据转换为纬度和经度？
我有一些传递地理位置坐标的二进制数据流 - 纬度和经度。我需要找到它们编码的方法。 4adac812 = 74°26.2851' = 74.438085 2b6059f9 = 43°0.2763'
sql - 在sqlite中删除9D(十六进制)字符
我想从 my_table 中选择 family，其中 family LIKE '%HEX(9D)' 家庭十六进制格式以 9D 十六进制结尾我将excel文件转换为sqlite数据库但是我的一些数据
binary - 三路二进制(十六进制)文件比较工具？
我有一组二进制配置文件，每个文件有三个版本——每个文件的原始版本和两个不同修改的版本。我需要能够同时看到两个版本和原始版本之间的差异。我需要的是一个二进制文件的三向差异工具。通过相当费力的谷歌搜索，
powershell - 将字节数组(十六进制)转换为有符号的Int
我正在尝试将(可变长度)十六进制字符串转换为带符号整数(我需要正值或负值)。 [Int16] [int 32]和[int64] 似乎可以在2,4+字节长的十六进制字符串上正常工作，但我在使用3个字节的
facebook - 如何在Facebook中使用unicode(十六进制)输出字符？
如何将十六进制的 unicode 写入 Facebook“您在想什么”框？我尝试过写: \u00B9 "\u00B9" ¹ "¹" 到目前为止没有任何效果 (让我补充一下，我是在 M

首页

博学

6Ren·AI

商城

java - 两个十六进制数的相似度