- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试实现通用指纹 memoizator :我们有一个可以通过智能指纹表示的文件(例如图像的 pHash 或音频的 chromaprint),如果我们想要的(昂贵的)函数已经在类似文件上计算出来,那么我们返回相同的结果(避免昂贵的计算)。
Locality Sensitive Hash (LSH) 是 Approximate nearest neighbor 的流行且性能良好的解决方案昂贵的多维空间中的问题。
pHash是一个很好的库,它实现了图像的感知哈希。
因此 pHash 将多维输入(图像)转换为一维对象(哈希码),这与 LSH(同样,LSH 中的多维对象)不同。
所以我想知道我们如何为 pHash 哈希值实现一维 LSH?或者简而言之:我们如何将相似的 pHash 值分组到 bin 中?它可以替代经典的 LSH 方法吗(如果不是为什么)?
最佳答案
你可以使用n
random projections将 pHash 空间分成 2^n
个桶,那么很可能从同一个桶中找到相似的图像。您甚至可以将散列与所有 64 个可能的整数(汉明权重为 1)进行异或,以方便地检查相邻的桶并确保找到所有近似匹配项。
只有当您对具有几乎相同哈希值(小汉明距离)的图像感兴趣时,这才是有效的。如果您想容忍更大的汉明距离(例如 8),那么高效准确地找到所有匹配项会变得很棘手。我通过 scanning through 获得了非常好的表现整个表由 GPU,即使是我 3 岁的笔记本电脑的 GT 650M 也可以每秒检查 7 亿个哈希值!
编辑 1:您可以将 64 位哈希视为 64 维立方体上的单个角,如果将角坐标标准化为 -1
并且1
(这样它的中心在原点)。您可以将 m
图像表示为大小为 m x 64
的矩阵 M
(一行/图像,一位散列/列)。
将其拆分为 2^n
个不同组的最简单方法是生成 n
64 维 vector v_0, v_1, ..., v_n
(从正态分布 N(0,1) 中选取每个 vector 元素),这可以表示为大小为 64 x n
的矩阵 V
(一列/vector ) .可能存在随机投影中提到的正交性强制执行,但我将在此处跳过。
现在通过计算 A = (M * V) > 0
你得到 m x n
矩阵(一个图像/行,一个投影/列)。接下来将每一行的二进制表示形式转换为一个数字,您会得到 2^n
不同的可能性,并且相似的哈希最有可能最终到达同一个桶。
此算法适用于数据的任何正交表示(例如 SURF 特征),而不仅仅是二进制字符串。我确信二进制哈希有更简单(并且计算效率更高)的算法,但这是实现随机投影的一种方法。
我建议使用 XORring,因为如果图像不具有相同的哈希值,则不能保证它们最终会出现在同一个存储桶中。通过检查与原始哈希的所有可能的小偏差,您可以看到哪些其他 bin 可能用于可能的匹配。
在某种程度上,这类似于计算机游戏引擎如何将 2D map 拆分为大小为 x
的单元格网格,然后找到半径 x
内的所有单元> 从一个点出发,您只需检查 9 个单元格(包含该点的单元格 + 周围的 8 个单元格)即可获得 100% 准确的答案。
关于c++ - 局部敏感哈希或 pHash?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37110884/
我正在尝试 grep conf 文件中所有不以 开头的有效行 哈希(或) 任意数量的空格(0 个或多个)和一个散列 下面的正则表达式似乎不起作用。 grep ^[^[[:blank:]]*#] /op
我正在使用哈希通过 URL 发送 protected 电子邮件以激活帐户 Hash::make($data["email"]); 但是哈希结果是 %242y%2410%24xaiB/eO6knk8sL
我是 Perl 的新手,正在尝试从文本文件创建散列。我有一个代码外部的文本文件,旨在供其他人编辑。前提是他们应该熟悉 Perl 并且知道在哪里编辑。文本文件本质上包含几个散列的散列,具有正确的语法、缩
我一直在阅读 perl 文档,但我不太了解哈希。我正在尝试查找哈希键是否存在,如果存在,则比较其值。让我感到困惑的是,我的搜索结果表明您可以通过 if (exists $files{$key}) 找到
我遇到了数字对映射到其他数字对的问题。例如,(1,2)->(12,97)。有些对可能映射到多个其他对,所以我真正需要的是将一对映射到列表列表的能力,例如 (1,2)->((12,97),(4,1))。
我见过的所有 Mustache 文档和示例都展示了如何使用散列来填充模板。我有兴趣去另一个方向。 EG,如果我有这个: Hello {{name}} mustache 能否生成这个(伪代码): tag
我正在尝试使用此公式创建密码摘要以获取以下变量,但我的代码不匹配。不确定我做错了什么,但当我需要帮助时我会承认。希望有人在那里可以提供帮助。 文档中的公式:Base64(SHA1(NONCE + TI
我希望遍历我传递给定路径的这些数据结构(基本上是目录结构)。 目标是列出根/基本路径,然后列出所有子 path s 如果它们存在并且对于每个子 path存在,列出 file从那个子路径。 我知道这可能
我希望有一个包含对子函数的引用的散列,我可以在其中根据用户定义的变量调用这些函数,我将尝试给出我正在尝试做的事情的简化示例。 my %colors = ( vim => setup_vim()
我注意到,在使用 vim 将它们复制粘贴到文件中后尝试生成一些散列时,散列不是它应该的样子。打开和写出文件时相同。与 nano 的行为相同,所以一定有我遗漏的地方。 $ echo -n "foo"
数组和散列作为状态变量存在限制。从 Perl 5.10 开始,我们无法在列表上下文中初始化它们: 所以 state @array = qw(a b c); #Error! 为什么会这样?为什么这是不允
在端口 80 上使用 varnish 5.1 的多网站设置中,我不想缓存所有域。 这在 vcl_recv 中很容易完成。 if ( req.http.Host == "cache.this.domai
基本上,缓存破坏文件上的哈希不会更新。 class S3PipelineStorage(PipelineMixin, CachedFilesMixin, S3BotoStorage): pa
eclipse dart插件在“变量” View 中显示如下内容: 在“值”列中可见的“id”是什么意思? “id”是唯一的吗?在调试期间,如何确定两个实例是否相同?我是否需要在所有类中重写toStr
如何将Powershell中的命令行参数读入数组?就像是 myprogram -file file1 -file file2 -file file3 然后我有一个数组 [file1,file2,fil
我正尝试在 coldfusion 中为我们的安全支付网关创建哈希密码以接受交易。 很遗憾,支付网关拒绝接受我生成的哈希值。 表单发送交易的所有元素,并发送基于五个不同字段生成的哈希值。 在 PHP 中
例如,我有一个包含 5 个元素的哈希: my_hash = {a: 'qwe', b: 'zcx', c: 'dss', d: 'ccc', e: 'www' } 我的目标是每次循环哈希时都返回,但没
我在这里看到了令人作呕的类似问题,但没有一个能具体回答我自己的问题。 我正在尝试以编程方式创建哈希的哈希。我的问题代码如下: my %this_hash = (); if ($user_hash{$u
我正尝试在 coldfusion 中为我们的安全支付网关创建哈希密码以接受交易。 很遗憾,支付网关拒绝接受我生成的哈希值。 表单发送交易的所有元素,并发送基于五个不同字段生成的哈希值。 在 PHP 中
这个问题已经有答案了: Java - how to convert letters in a string to a number? (9 个回答) 已关闭 7 年前。 我需要一种简短的方法将字符串转
我是一名优秀的程序员,十分优秀!