- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
问题:
给定一个大型(约 1 亿)无符号 32 位整数列表、一个无符号 32 位整数输入值和最大 Hamming Distance , 返回输入值指定汉明距离内的所有列表成员。
保存列表的实际数据结构是开放的,性能要求决定了内存中的解决方案,构建数据结构的成本是次要的,查询数据结构的低成本是关键。
示例:
For a maximum Hamming Distance of 1 (values typically will be quite small)
And input:
00001000100000000000000001111101
The values:
01001000100000000000000001111101
00001000100000000010000001111101
should match because there is only 1 position in which the bits are different.
11001000100000000010000001111101
should not match because 3 bit positions are different.
到目前为止我的想法:
对于汉明距离为 0 的退化情况,只需使用排序列表并对特定输入值进行二进制搜索。
如果汉明距离永远为 1,我可以翻转原始输入中的每一位并重复上述 32 次。
我如何有效地(无需扫描整个列表)发现汉明距离 > 1 的列表成员。
最佳答案
问题:我们对汉明距离 d(x,y) 了解多少?
答案:
问题:我们为什么关心?
答案:因为这意味着汉明距离是度量的度量空间。有索引度量空间的算法。
您还可以查找一般的“空间索引”算法,了解您的空间不是欧几里德空间,而是度量空间。许多关于此主题的书籍都介绍了使用汉明距离等度量的字符串索引。
脚注:如果您正在比较固定宽度字符串的汉明距离,您可能能够通过使用汇编或处理器内在函数来显着提高性能。例如,使用 GCC ( manual) 你可以这样做:
static inline int distance(unsigned x, unsigned y)
{
return __builtin_popcount(x^y);
}
如果您随后通知 GCC 您正在为一台使用 SSE4a 的计算机进行编译,那么我认为应该减少到只有几个操作码。
编辑:根据许多消息来源,这有时/通常比通常的掩码/移位/添加代码慢。基准测试表明,在我的系统上,C 版本的性能优于 GCC 的 __builtin_popcount
大约 160%。
附录:我自己对这个问题很好奇,所以我分析了三种实现方式:线性搜索、BK 树和 VP 树。请注意 VP 和 BK 树非常相似。 BK 树中一个节点的子节点是树的“外壳”,其中包含与树的中心有固定距离的点。 VP 树中的一个节点有两个子节点,一个包含以节点中心为中心的球体内的所有点,另一个子节点包含外部的所有点。因此,您可以将 VP 节点视为具有两个非常厚的“壳”而不是许多更细的“壳”的 BK 节点。
结果是在我的 3.2 GHz PC 上捕获的,算法不会尝试利用多核(这应该很容易)。我选择了 100M 伪随机整数的数据库大小。结果是距离 1..5 的 1000 个查询的平均值,以及 6..10 和线性搜索的 100 个查询的平均值。
-- BK Tree -- -- VP Tree -- -- Linear --Dist Results Speed Cov Speed Cov Speed Cov1 0.90 3800 0.048% 4200 0.048%2 11 300 0.68% 330 0.65%3 130 56 3.8% 63 3.4%4 970 18 12% 22 10%5 5700 8.5 26% 10 22%6 2.6e4 5.2 42% 6.0 37%7 1.1e5 3.7 60% 4.1 54%8 3.5e5 3.0 74% 3.2 70%9 1.0e6 2.6 85% 2.7 82%10 2.5e6 2.3 91% 2.4 90%any 2.2 100%
在您的评论中,您提到:
I think BK-trees could be improved by generating a bunch of BK-trees with different root nodes, and spreading them out.
我认为这正是 VP 树表现(略)优于 BK 树的原因。 “更深”而不是“更浅”,它与更多的点进行比较,而不是对更少的点进行更细粒度的比较。我怀疑在高维空间中差异更为极端。
最后一个提示:树中的叶节点应该只是线性扫描的平面整数数组。对于小集合(可能 1000 个点或更少),这会更快并且内存效率更高。
关于algorithm - 在大型集合中有效地找到具有低汉明距离的二进制字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6389841/
编辑:我似乎问错了这个问题。 我正在尝试寻找一种方法来查询一个集合是否在另一个集合中可用。例如: SELECT * FROM something WHERE (1, 3) IN (1, 2, 3, 4
这两种方法似乎 produce the same results ,但我一直很难真正说服人们第二种方法有效,因为它显然并不为人所知。 // Create some data var foo = { '
我一直在学习Kotlin,并且遇到过Collections API。在Kotlin之前,我一直在学习Java,并且我知道Java中有很多不同类型的Collections API。例如,我们使用List
为什么我会得到不同的行为: Collection col2 = new ArrayList(col); 集合 col2 = new ArrayList(); col2.addAll(col) 我正在与
所以我有一个代表专辑信息的 JSON 对象。给定“function updateRecords(id, prop, value)”我希望能够更新每个条目。正确的完成代码如下。 我得到了指示,粗体部分,
我想存储一个对象集合,这些对象根据它们所代表的值进行键控。这些键可以重复。例如: [4] => Bob [5] => Mary [5] => Sue [9] => Steve [10] =>
在检查 ArrayList API 时,我注意到一些看起来很奇怪的东西。 确实,这里是 ArrayList 构造函数实现,其中 Collection 作为参数传递: public ArrayList(
我正在为 API 编写一个 swagger 定义文件。 API 是用于 GET 请求的 /path/to/my/api: get: summary: My Custom API d
我知道scala.collection包中有两个非常有用的对象,可以帮助我们实现这个目标: JavaConverters(如果我想明确说明并准确说明我要转换的内容) JavaConversions(如
我已经阅读了无数其他帖子,但似乎无法弄清楚发生了什么,所以是时候寻求帮助了。 我正在尝试将包含集合的域实体映射到也包含集合的 dtos。 这是一个原始示例; (我提前为代码墙道歉,我尽量保持简短):
我正在创建一个具有 ArrayList 的类,因此当我调用构造函数时,它会初始化该数组: public class ElementsList { private ArrayList list;
我正在阅读事件指南和指南的开头,它说: You can also add an event listener to any element in the this.$ collection using
我是 Python 新手,想知道如何使用键在字典中存储不同数据类型的列表 例如 - {[Key1,int1,int1,String1] , [Key2,int2,int2,String2], [Key
int[] mylist = { 2, 4, 5 }; IEnumerable list1 = mylist; list1.ToList().Add(1); // why 1 does not get
我在 UI 表单中的每一行之后将以下内容添加到 HashMap 集合中 声明 Map> map = new HashMap>(); List valSetOne = new ArrayList();
我正在开发我的第一个 Java 项目,我有一个问题。问题应该很简单(虽然代码不是那么短,但没有理由被吓倒:))。我创建了一个基本的角色扮演游戏,并且有一个定义每个角色的抽象类“Character”。在
我正在开发一款应用程序,可以为用户收集推文、Facebook 状态和 Facebook 照片。目前,用户确切地设定了他们希望这种收获发生的时间和时间,并且蜘蛛会在此期间拉取数据。 when 和 to
有谁知道在 C# 中是否有与 Java 的 Set 集合等效的好方法?我知道您可以通过填充但忽略值来使用 Dictionary 或 HashTable 在某种程度上模仿集合,但这不是一种非常优雅的方式
EXISTS 该函数返回 集合中第一个元素的索引,如果集合为空,返回NULLNULLNULL Collecti
RDF集合是通过属性 rdf:parseType="Collection" 来描述仅包含指定成员的组 rdf:parseType="Collection" 属
我是一名优秀的程序员,十分优秀!