algorithm - 使用优化的 Levenshtein 算法寻找最近的邻居-6ren

algorithm - 使用优化的 Levenshtein 算法寻找最近的邻居

转载作者：塔克拉玛干更新时间：2023-11-03 03:15:47

26

4

我最近posted a question关于优化计算 Levenshtein 距离的算法，回复将我引到关于 Levenshtein Distance 的维基百科文章.

文章提到，如果给定查询的可能结果的最大距离有一个界限 k，那么运行时间可以从 O(mn) 到 O(kn)，m 和 n 是字符串的长度。我查阅了算法，但我真的不知道如何实现它。我希望在这里得到一些线索。

优化是“可能的改进”下的#4。

让我感到困惑的部分是说我们只需要计算宽度为 2k+1 的对角线条纹，以主对角线为中心(主对角线定义为坐标 (i ,i)).

如果有人可以提供一些帮助/见解，我将不胜感激。如果需要，我可以在此处发布书中算法的完整描述作为答案。

最佳答案

我已经做过很多次了。我这样做的方法是对可能发生变化的游戏树进行递归深度优先树遍历。有一个预算 k 的变化，我用它来修剪树。有了这个例程，首先我用 k=0 运行它，然后 k=1，然后 k=2，直到我被击中或我不想再高了。

char* a = /* string 1 */;
char* b = /* string 2 */;
int na = strlen(a);
int nb = strlen(b);
bool walk(int ia, int ib, int k){
  /* if the budget is exhausted, prune the search */
  if (k < 0) return false;
  /* if at end of both strings we have a match */
  if (ia == na && ib == nb) return true;
  /* if the first characters match, continue walking with no reduction in budget */
  if (ia < na && ib < nb && a[ia] == b[ib] && walk(ia+1, ib+1, k)) return true;
  /* if the first characters don't match, assume there is a 1-character replacement */
  if (ia < na && ib < nb && a[ia] != b[ib] && walk(ia+1, ib+1, k-1)) return true;
  /* try assuming there is an extra character in a */
  if (ia < na && walk(ia+1, ib, k-1)) return true;
  /* try assuming there is an extra character in b */
  if (ib < nb && walk(ia, ib+1, k-1)) return true;
  /* if none of those worked, I give up */
  return false;
}

添加以解释 trie 搜索:

// definition of trie-node:
struct TNode {
  TNode* pa[128]; // for each possible character, pointer to subnode
};

// simple trie-walk of a node
// key is the input word, answer is the output word,
// i is the character position, and hdis is the hamming distance.
void walk(TNode* p, char key[], char answer[], int i, int hdis){
  // If this is the end of a word in the trie, it is marked as
  // having something non-null under the '\0' entry of the trie.
  if (p->pa[0] != null){
    if (key[i] == '\0') printf("answer = %s, hdis = %d\n", answer, hdis);
  }
  // for every actual subnode of the trie
  for(char c = 1; c < 128; c++){
    // if it is a real subnode
    if (p->pa[c] != null){
      // keep track of the answer word represented by the trie
      answer[i] = c; answer[i+1] = '\0';
      // and walk that subnode
      // If the answer disagrees with the key, increment the hamming distance
      walk(p->pa[c], key, answer, i+1, (answer[i]==key[i] ? hdis : hdis+1));
    }
  }
}
// Note: you have to edit this to handle short keys.
// Simplest is to just append a lot of '\0' bytes to the key.

现在，为了将其限制在预算范围内，如果 hdis 太大，则拒绝下降。

关于algorithm - 使用优化的 Levenshtein 算法寻找最近的邻居，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3195269/

26

4

0

文章推荐： algorithm - 最重要的算法是什么？

文章推荐： java - 用于 Java 的开发服务器，就像 VS 用于 .NET 一样？

文章推荐： algorithm - 通过下溢收敛到零

delphi - 寻找 EOutOfResources
题: 是否有一种简单的方法可以获取正在运行的应用程序中泄漏的资源类型列表？ IOW 通过连接到应用程序？我知道 memproof 可以做到，但它会减慢速度，以至于应用程序甚至无法持续一分钟。大多数任
c# - 寻找.net核心的容器的stdout和stderr
正确地说下面的代码会将自定义日志发送到.net核心中的Docker容器的stdout和stderr吗？ console.Writeline(...) console.error(..) 最佳答案如果
java - 寻找 for 循环中动态变量声明的解决方法
我想将一个任务多次重复，放入 for 循环中。我必须将时间序列对象存储为 IExchangeItem ， openDA 中的一个特殊类(数据同化软件)。这是任务之一(有效): HashMap ite
c++ - 寻找，相对或绝对位置？
我需要从文件中读取一个数组。该数组在文件中不是连续排序的，必须跳转“偏移”字节才能获得下一个元素。假设我读取一个非常大的文件，什么更有效率。 1) 使用增量相对位置。 2)使用绝对位置。选项 1:
c++ - 寻找 MSIHANDLE
我有一个安装程序(使用 Advanced Installer 制作)。我有一个必须与之交互的应用程序，但我不知道如何找到该安装的 MSIHANDLE。我查看了 Microsoft 引用资料，但没有发现
javascript - 寻找。正则表达式中的字符问题
我在替换正则表达式中的“joe.”等内容时遇到问题。这是代码 var objects = new Array("joe","sam"); code = "joe.id was here so was
c++ - 寻找 child
我有 A 类。A 类负责管理 B 对象的生命周期，它包含 B 对象的容器，即 map。，每个 B 对象都包含 C 对象的容器，即 map .我有一个全局 A 对象用于整个应用程序。我有以下问题:我
android - 寻找 FreeImage.so
任何人都可以告诉我在哪里可以找到 freeImage.so 吗？我一直在努力寻找相同的东西但没有成功..任何帮助将不胜感激。我已经尝试将 freeimage.a 转换为 freeImage .so 并
python - 寻找 assertURLEquals
在单元测试期间，我想将生成的 URL 与测试中定义的静态 URL 进行比较。对于此比较，最好有一个 TestCase.assertURLEqual 或类似的，它可以让您比较两个字符串格式的 URL，如
c++ - “寻找”优化
'find ./ -name *.jpg' 我正在尝试优化上述语句的“查找”命令。在查找实现中处理“-name”谓词的方法。 static boolean pred__name __common (
python - 寻找()函数？
请原谅我在这里的困惑，但我已经阅读了关于 python 中的 seek() 函数的文档(在不得不使用它之后)，虽然它帮助了我，但我仍然对它的实际含义有点困惑，任何非常感谢您的解释，谢谢。最佳答案关
c# - 寻找 boolean 语句的解释
我在我正在使用的库中找到了这个语句。它应该检查集群中的当前节点是否是领导者。这是语句:(!(cluster.Leader?.IsRemote ?? true)) 为什么不直接使用 (cluster.L
java - 寻找 JsonParser 依赖
我发现 JsonParser 在 javax.json.stream 中，但我不知道在哪里可以找到它。谁能帮帮我？ https://docs.oracle.com/javaee/7/api/javax
security - 寻找 Web 服务安全漏洞的真实故事
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 6年前关闭。 Improve this questi
jenkins - 寻找 Jenkins 插件以允许每个分支的默认参数值
如果 git 存储库中有新的更改可用，我有一个多分支管道作业设置为每分钟由 Jenkinsfile 构建。如果分支名称是某种格式，我有一个将工件部署到环境的步骤。我希望能够在每个分支的基础上配置环境，
uml - 寻找 Harel 状态图工具
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
coldfusion - 寻找 cfdump 的替代方案
我想我刚刚意识到当他们不让我使用 cfdump 时我的网络主机是多么的限制。这其实有点让我生气，真的，dump 有什么害处？无论如何，我的问题是是否有人编写了一个 cfdump 替代方案来剔除复杂类型
rest - 寻找 RESTful 方法来更新具有相同字段集的多个资源
任务:我有多个资源需要在一个 HTTP 调用中更新。要更新的资源类型、字段和值对于所有资源都是相同的。示例:通过 ID 设置了一组汽车，需要将所有汽车的“状态”更新为“已售出”。经典 RESTF
sql - 寻找 SQL 中的性能改进
场景:表中有 2 列，数据如下例所示。对于“a”列的相同值，该表可能有多个行。在示例中，考虑到“a”列，“1”有三行，“2”有一行。示例表“t1”: |a|b ||1|1.1||1|1.2||1
python - 寻找 Pandas 最长的连续增长
我有一个数据框: Date Price 2021-01-01 29344.67 2021-01-02 32072.08 2021-01-03 33048.03 2021-01-04 32084.

首页

博学

6Ren·AI

商城

algorithm - 使用优化的 Levenshtein 算法寻找最近的邻居