测试针对集合的最小汉明距离的算法？-6ren

测试针对集合的最小汉明距离的算法？

转载作者：塔克拉玛干更新时间：2023-11-03 03:01:18

24

4

我想做一件相对简单的事情:

给定一个查询号 Q ，查询距离d , 和一组数字 S ，判断是否S包含任何汉明距离小于或等于 d 的数字.

最简单的解决方案是制作 S一个列表并对其进行迭代，计算距离。如果计算出的距离小于或等于 d，则退出返回 TRUE .
但是考虑到我想要做的就是检查是否存在，比线性时间解决方案更快的东西应该是可能的。
我试过的一件事是 M-tree .引用有关 stackoverflow 的其他一些问题、维基百科文章 ( https://en.wikipedia.org/wiki/M-tree ) 和两个预先存在的实现，我昨天花了几个小时来实现自定义解决方案。这个问题的一个好处是，通过两个数字的异或(使用 SSE 指令)计算 popcount 实际上比存储允许避免计算度量的数字更便宜，因此解决方案的几个方面可以简化和优化速度。
结果非常令人失望。事实证明，与最小汉明距离相比，我正在处理的公制半径很小。例如，在 12 位数字的空间中，最大汉明距离是 12。如果我要寻找的最小值是 4，那么就没有太多机会进行良好的非重叠分区。事实上，我只是尝试过，通过蛮力创建一组最小汉明距离为 4 的 12 位数字，然后(通过蛮力)找到最佳二叉树分区，以便搜索算法可以访问最少数量的节点。如果我想计数查询的 d 内的集合元素的数量，我不能将节点访问次数减少到总数的 30% 以下，并且当我发现第一个访问了大约 4% 时停止。这意味着我或多或少做了一个线性时间解决方案，其中精心设计的树搜索算法的开销与不必检查尽可能多的集合成员所节省的开销大致相同。
但是我想做的很有限。我什至不想计算查询距离 <= d 的集合成员的数量，更不用说列举它们了。我只是想检查是否存在。这让我想到了布隆过滤器和哈希之类的东西。
我还考虑过尝试构建一个图结构，其中集合成员通过带权重的边连接。使用汉明距离尊重三角不等式这一事实，在我看来，必须有某种方法来搜索此图，使得边遍历导致与查询的距离可能更小，但我什至不知道从哪里开始这里。
有没有人对这里的解决方案有任何其他建议，可以轻松击败简单迭代数组的性能？
编辑和动机:
最终这来自一个编码理论问题。对于给定的偶数 d和字号 N ，我可以将多少个具有最小汉明距离 d 的代码放入一个 N 位数字中？这允许创建可以检测 d/2 错误的代码。位纠正错误高达 d/2-1位。我们知道像 LDPC 这样的香农极限码，但这是针对具有模糊最小汉明距离的长码，它们需要很长时间才能解码。还有像 OLSC 这样的多位错误代码可以快速解码，但它们的空间效率远非如此。另一方面，对于 d = 4 , 扩展汉明 (SECDED) 码是最佳紧凑的。我见过基于 BCH 的方法来制作 DECTED 代码，但我不知道它们是否是最佳的。为了探索最佳编码，我想做的是生成 N 的替代代码集。位与一些任意 d 并生成电路来对它们进行编码和解码，选择最紧凑的。我还希望找到一些我们可以利用的更长代码的模式。
如果这 (a) 还没有完成，(b) 可行，并且 (c) 有人想合着一篇论文，请告诉我。 :)

最佳答案

我认为这个问题可以通过将每个数字从 S 拆分为子字符串来解决，这样查询结果必须至少有 1 个分区，其汉明距离不超过 1 与查询的相应分区。

这个算法在文章中有描述:Alex X. Liu, Ke Shen, Eric Torng. Large scale Hamming distance query processing, 2011 .作者将该算法称为 HEngine。我试图解释一些直觉。

让 N - 数字的位数(它的维数)

k - 查询汉明距离

r-cut(α) - 将数字 α 分成 r 个子串 {α1, α2, ..., αr} 的函数，其中前 r − (m mod r) 个子串的长度为 ⌊m/r⌋，最后一个 m mod r子串的长度为 ⌈m/r⌉

该算法基于以下定理:

对于任何两个二进制串 β 和 γ 使得 HD(β, γ) ≤ k，考虑 r-cut(β) 和 r-cut(γ)，其中 r ≥ ⌊k/2⌋ + 1。一定是这样的HD(βi, γi) ≤ 1 对于至少 q = r − ⌊k/2⌋ 不同的 i 值。

例如，我们有长度为 N = 8 位的二进制字符串。我们想找到 k = 2 的子串。

α = 10001110
β = 10100110
HD(α, β) = 2

然后 r 的最小值 = ⌊2/2⌋ + 1 = 2。在这种情况下 r-cut(α,β) 产生 2 个长度为 4 位的子串:

    α1 = 1000    α2 = 1110
    β1 = 1010    β2 = 0110
HD(α1, β1) = 1,  HD(α2, β2) = 1

q = 2 - ⌊2/2⌋ = 1。

作者还介绍了下一个定理:

考虑任何字符串 β ∈ T 使得 HD(α, β) ≤ k。给定任何 r ≥ ⌊k/2⌋ + 1，那么至少有一个签名 β 签名与其兼容的签名 α 签名相匹配。

该算法的基本思想是对 S 进行预处理，以便于找到 S 中满足签名匹配属性的所有字符串 β，然后验证这些字符串中哪些实际上在 α 的汉明距离 k 内。

我想您应该使用 HEngine 算法将 S 组准备到子表，并以相同的方式将 Q 拆分为分区。然后考虑到对应分区的汉明距离不大于1，按对应分区进行搜索。

请我建议您在文章中查看更多详细信息。

关于测试针对集合的最小汉明距离的算法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38900004/

24

4

0

文章推荐： java - 将注解作为 super 接口(interface)时的@SuppressWarnings 值

文章推荐： java - Java 1.7 是否使用不同的字符编码？

文章推荐：在 n 个硬币中找到假币的算法

mysql - WHERE(集合)IN(集合)
编辑:我似乎问错了这个问题。我正在尝试寻找一种方法来查询一个集合是否在另一个集合中可用。例如: SELECT * FROM something WHERE (1, 3) IN (1, 2, 3, 4
jquery - $.each([集合]) 与 $([集合]).each()
这两种方法似乎 produce the same results ，但我一直很难真正说服人们第二种方法有效，因为它显然并不为人所知。 // Create some data var foo = { '
kotlin - 为什么我们在Kotlin中仅使用[列表， map ，集合]集合？
我一直在学习Kotlin，并且遇到过Collections API。在Kotlin之前，我一直在学习Java，并且我知道Java中有很多不同类型的Collections API。例如，我们使用List
Java addAll(集合)与 new ArrayList(集合)
为什么我会得到不同的行为: Collection col2 = new ArrayList(col); 集合 col2 = new ArrayList(); col2.addAll(col) 我正在与
javascript: 集合[id][prop] = 集合[id][prop] || []//将空数组分配给对象时出现问题
所以我有一个代表专辑信息的 JSON 对象。给定“function updateRecords(id, prop, value)”我希望能够更新每个条目。正确的完成代码如下。我得到了指示，粗体部分，
java - 我需要哪种 Java 对象类型(集合/列表/集合/其他)？
我想存储一个对象集合，这些对象根据它们所代表的值进行键控。这些键可以重复。例如: [4] => Bob [5] => Mary [5] => Sue [9] => Steve [10] =>
collections - ArrayList(集合 c)VS HashSet(集合 c)
在检查 ArrayList API 时，我注意到一些看起来很奇怪的东西。确实，这里是 ArrayList 构造函数实现，其中 Collection 作为参数传递: public ArrayList(
collections - 如何在我的 YAML Swagger 定义中将属性类型定义为字符串列表(列表、集合、数组、集合)
我正在为 API 编写一个 swagger 定义文件。 API 是用于 GET 请求的 /path/to/my/api: get: summary: My Custom API d
java - 如何将 Scala 集合 Seq[(Int, Seq[String])] 转换为 Java 集合 List[(int, List[String])]？
我知道scala.collection包中有两个非常有用的对象，可以帮助我们实现这个目标: JavaConverters(如果我想明确说明并准确说明我要转换的内容) JavaConversions(如
Automapper 集合
我已经阅读了无数其他帖子，但似乎无法弄清楚发生了什么，所以是时候寻求帮助了。我正在尝试将包含集合的域实体映射到也包含集合的 dtos。这是一个原始示例； (我提前为代码墙道歉，我尽量保持简短):
Java:集合
我正在创建一个具有 ArrayList 的类，因此当我调用构造函数时，它会初始化该数组: public class ElementsList { private ArrayList list;
polymer this.$ 集合
我正在阅读事件指南和指南的开头，它说: You can also add an event listener to any element in the this.$ collection using
Python - 集合
我是 Python 新手，想知道如何使用键在字典中存储不同数据类型的列表例如 - {[Key1,int1,int1,String1] , [Key2,int2,int2,String2], [Key
C# 集合
int[] mylist = { 2, 4, 5 }; IEnumerable list1 = mylist; list1.ToList().Add(1); // why 1 does not get
Java 集合
我在 UI 表单中的每一行之后将以下内容添加到 HashMap 集合中声明 Map> map = new HashMap>(); List valSetOne = new ArrayList();
Java - 集合
我正在开发我的第一个 Java 项目，我有一个问题。问题应该很简单(虽然代码不是那么短，但没有理由被吓倒:))。我创建了一个基本的角色扮演游戏，并且有一个定义每个角色的抽象类“Character”。在
MongoDB 集合
我正在开发一款应用程序，可以为用户收集推文、Facebook 状态和 Facebook 照片。目前，用户确切地设定了他们希望这种收获发生的时间和时间，并且蜘蛛会在此期间拉取数据。 when 和 to
C# 集合？
有谁知道在 C# 中是否有与 Java 的 Set 集合等效的好方法？我知道您可以通过填充但忽略值来使用 Dictionary 或 HashTable 在某种程度上模仿集合，但这不是一种非常优雅的方式
oracle 集合
EXISTS 该函数返回集合中第一个元素的索引，如果集合为空，返回NULLNULLNULL Collecti
07、RDF 集合
RDF集合是通过属性 rdf:parseType="Collection" 来描述仅包含指定成员的组 rdf:parseType="Collection" 属

首页

博学

6Ren·AI

商城

测试针对集合的最小汉明距离的算法？