- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在设计用于查找相似哈希值的索引策略。哈希是为图像生成的。即
String A = "00007c3fff1f3b06738f390079c627c3ffe3fb11f0007c00fff07ff03f003000" //Image 1
String B = "6000fc3efb1f1b06638f1b0071c667c7fff3e738d0007c00fff03ff03f803000" //Image 2
这两个哈希相似(基于汉明距离和 Levenshtein 距离),因此图像相似。我有超过 1.9 亿个这样的哈希值。我必须选择合适的索引数据结构,其中查找相似散列的最坏情况复杂度不是 O(n)。哈希数据结构将不起作用,因为它会搜索 <、= 和 >(或者会搜索吗?)。我可以找到汉明距离或其他距离来计算相似度,但在最坏的情况下,我最终会计算它 1.9 亿次。
现在这是我的策略:
目前我正在研究 BTree,我将根据编号对节点中的所有键进行排名。连续相同的字符并遍历排名最高的键,如果子键的排名低于父节点中其他键的排名,我将开始遍历父节点中的那个键。如果父级的所有等级都相同,我将进行正常的 BTree 遍历(givenkey < nodeKey --> 转到 nodeKey 的子节点..使用 ASCII 比较),这就是我的问题所在。
因为这会导致搜索中出现大量漏报。在最坏的情况下,我将只遍历树的一部分,在其他遍历中可以找到可能相似的键。否则我必须搜索整棵树,这又是 O(n),我可能还没有树。
我觉得必须有更好的方法,现在我被困住了,很高兴听到任何关于解决问题的意见。请分享您的想法。
附:我不能使用任何外部数据库。
最佳答案
首先,这是一个非常难的问题。不要指望整洁的答案。
我见过的一个大概的数据结构是Spatial Approximation Sample Hierarchy (SASH) .
A SASH (Spatial Approximation Sample Hierarchy) is a general-purpose data structure for efficiently computing approximate answers for similarity queries. Similarity queries naturally arise in a number of important computing contexts, in particular content-based retrieval on multimedia databases, and nearest-neighbor methods for clustering and classification.
SASH 仅使用距离函数来构建数据结构,因此距离函数(在您的情况下,图像哈希函数也是如此)需要“良好”。基本的直觉大致是,如果 A ~ B(图像 A 接近图像 B)和 B ~ C,那么通常是 A ~ C。数据结构在相对接近的项目之间创建链接,并且您可以通过仅查看来修剪搜索对于更接近您的查询的事物。该策略是否真的有效取决于数据的性质和距离函数。
自从我关注 SASH 以来已经有 10 年左右的时间了,所以可能还有更新的发展。 Michael Houle's page似乎表明他对一种叫做 Rank Cover Trees 的东西有更新的研究,其目的似乎与 SASH 相似。这至少应该让你开始在该领域进行研究;阅读一些论文并遵循引用线索。
关于image - 查找相似字符串的索引策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38555154/
作者:小林coding 计算机八股文网站:https://xiaolincoding.com 大家好,我是小林。 今天跟大家聊聊,常见的缓存更新策略。 Cache Aside(旁路缓存)策略; Rea
我使用 git 多年,最近为了一个项目改用 mercurial。在过去的 6 个月里,我已经学会了如何通过命令行很好地使用 Mercurial。 这可能是我的想象,但在我看来,mercurial 在
这个问题适合任何熟悉的人 Node.js express Passport 带有 Passport 的 JWT 身份验证(JSON Web token ) Facebook OAuth2.0 或谷歌
在 Coq 中,当试图证明记录的相等性时,是否有一种策略可以将其分解为所有字段的相等性?例如, Record R := {x:nat;y:nat}. Variables a b c d : nat.
我正在处理的项目目前只有一个 Bootstrap 文件,用于初始化应用程序中的所有 javascript 对象。类似于下面的代码 if(document.getElementById('nav'))
我正在考虑使用 OpenLDAP 在首次登录时添加密码到期和强制更改密码。 似乎使用 ppolicy 覆盖来实现这一点。 当我在 ppolicy.schema 中看到这个时,我开始使用 ppolicy
这基本上是我昨天问的一个问题的重新陈述,因为我得到的一个答案似乎没有理解我的问题,所以我一定是不清楚。我的错。 因为 WPF 依赖于 DirectX,所以它对卡和驱动程序的内部非常敏感。我有一个案例,
我是单点登录(SSO)概念的新手。我开始知道 SAML 请求和响应是实现 SSO 流程的最佳方式。然后我开始阅读有关 SAML2.0 的信息。我来了一个术语 NameIdPolicy 在 saml1.
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
在 Azure 上创建新的 SQL 数据库时,它将“计算+存储”选项设置为“2 vCore + 32GB 数据最大大小”作为默认配置,但我不想使用 vCore,我可以更改它。但问题是,是否可以通过策略
我希望创建一项策略,防止在未启用身份验证的情况下创建应用服务(仅审核它们是不够的)。 以下策略可以正确识别未启用身份验证的现有资源: { "mode": "All", "policyRule"
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错,但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错,但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
我正在使用 wunderground 的 json api 来查询我网站上的天气状况。 api 为我提供了一个包含所有必要数据的漂亮 json 对象,但我每天只能进行多次调用。存储这些数据的首选方式是
我有一个名为可视化数据结构的项目。我有这样的 OOP 设计。 Class VisualDataStructures extends JFrame Class ControlPanel extends
这个问题在这里已经有了答案: 关闭 14 年前。 副本: Use javascript to inject script references as needed? Javascript 没有任何指
Android 应用程序遇到了一些 ANR 问题,因此我实现了 StrictMode 策略。以前从未使用过这个,所以希望有人可以帮助解释以下内容: 为什么日志显示 2 个看似相似的违规行为,除了前 4
我目前正在尝试解决一个问题。假设我们在路上行驶,我们知道路上有 10 家酒店。每家酒店都有 0 到 6 星。我的问题是:找到选择星级酒店的最佳解决方案。唯一的问题是:您不能回头去参观您已经决定不去的酒
我正在将我的应用程序迁移到 MVP。从这个 konmik 中获得了有关静态演示者模式的提示 这是我的简要 MVP 策略。为简洁起见,删除了大部分样板和 MVP 监听器。这个策略帮助我改变了方向,证明了
我是一名优秀的程序员,十分优秀!