string - 近似字符串匹配的具体算法代码-6ren

string - 近似字符串匹配的具体算法代码

转载作者：塔克拉玛干更新时间：2023-11-03 05:10:22

26

4

Approximate string matching不是一个陌生的问题。

我正在学习并试图了解如何解决它。我什至现在都不想深入了解它，只想了解蛮力方式。

在它的维基页面(Approximate string matching)中，它说

A brute-force approach would be to compute the edit distance to P (the pattern) for all substrings of T, and then choose the substring with the minimum distance. However, this algorithm would have the running time O(m * n^3), n is the length of T, m is the length of P

好的。我通过以下方式理解此声明:

我们找出 T 所有可能的子串
我们计算每对字符串 {P, t1}, {P, t2}, ... 的编辑距离
我们找出哪个子串与 P 的距离最短，这个子串就是答案。

我有以下问题:

一个。我可以使用两个 for 循环来获取所有可能的子字符串，这需要 O(n^2)。因此，当我尝试计算一个子字符串和模式的编辑距离时，是否需要 O(n*m)？为什么？

我究竟如何计算一对(一个子串和模式)的距离？我知道我可以插入、删除、替换，但谁能给我一个只计算一对的算法？

谢谢

编辑

好的，我应该使用 Levenshtein distance , 但我不太明白它的方法。

部分代码

for j from 1 to n
{
    for i from 1 to m
    {
      if s[i] = t[j] then  
        d[i, j] := d[i-1, j-1]       // no operation required
      else
        d[i, j] := minimum
                   (
                     d[i-1, j] + 1,  // a deletion
                     d[i, j-1] + 1,  // an insertion
                     d[i-1, j-1] + 1 // a substitution
                   )
    }
  }

因此，假设我现在正在比较 {"suv", "svi"}。

所以 'v' != 'i'，然后我必须看到另外三对:

{"su", "sv"}
{"suv", "sv"}
{"su", "svi"}

这部分怎么理解？为什么我需要看到这 3 个部分？

两个前缀之间的距离是否意味着我们需要距离的变化才能使两个前缀(或字符串)相等？

那么，让我们看一下{"su", "sv"}。我们可以看到{"su", "sv"}的距离是1，那么{"su", "sv"}怎么变成{"suv", "svi"} 只需加 1？我认为我们需要将“v”插入“su”，将“v”插入“sv”，然后将最后一个“i”替换为“v”，这涉及 3 个操作，对吗？

最佳答案

测量两个字符串之间编辑距离的标准方法称为 Levenshtein distance - 维基百科页面包含算法的伪代码。

至于您的编辑:您需要查看 {"su", "sv"} 因为可能是将 "suv" 更改为的最佳方法"svi"是将最后一个v替换为i，其代价是在改变"su"的代价之上 到 “sv”。或者，最好的方法可能是以某种方式将 "suv" 更改为 "sv"，然后添加一个 i。或者，最好的方法是先从 "suv" 中删除 v，然后将 "su" 更改为 “svi”。在这种情况下，第一种方法被证明是最好的(或与其他选项一样好)。编辑距离确实是2，操作就是把u变成v，把v变成i.

关于string - 近似字符串匹配的具体算法代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10791168/

26

4

0

文章推荐： algorithm - 从未知数量的集合中选择元素

文章推荐： java - Java 和 Ruby 之间的正则表达式差异

文章推荐： java - 通过返回语句调用私有(private)方法java

javascript - 检查日期是否已过(具体)
我是 Robert，我在使用 JavaScript 时遇到了一些问题。我得到了一个 (这是隐藏的)。我唯一想问你的是:我想检查日期是否在中已通过。如果通过了我想改变CSS中容器的背景颜色。不幸的
Java 跳过打印语句扫描器，具体
所以我的问题是我想要求输入使用扫描仪的信息，但它根本不打印出来。当它显示跳过的扫描仪的值时，Scanner CheeseType = new Scanner(System.in);，我得到 null。
mysql - 如何获得总和(具体)
Fe_Order_Items fe_order_items_id fe_order_specification_id fe_users_id fe_menu_items_id fe_order_ite
django - 什么是分布式消息系统？具体 'distributed'里面是什么？
人们普遍提到 - “Celery 是一个基于分布式消息传递的异步任务队列/作业队列”。虽然我知道如何使用 Celery 工作人员等。但内心深处我不明白分布式消息传递的真正重要性和意义以及任务队列在其中
c - 具体 C 字符未知
我试图理解下面的代码，但有一些我以前从未见过的东西，那就是:“\&\&” 这是代码: int main() { fork() \&\& (fork() || fork()); exit(EXIT_SU
python - Tkinter 屏幕删除，具体
您好，我是论坛新手。我有很多使用 python 的经验，但没有使用 tkinter 的经验。这是我的代码: from tkinter import * def Done(): celEn
c# - 具体 C# 类中是否需要可序列化属性？
在 C# 中，假设我们有一个通用类和一个具体类 [Serializable] public class GenericUser { ... [Serializable] public class Co
java - 实例化通用抽象类的子(具体)类，其构造函数需要其他参数类
我尝试使用的库有一个通用抽象类，其中有两个实现该基础的子类。我想编写一个类，它将根据构造函数参数的参数类型自动创建其中一个子级的实例。基类没有默认构造函数基类的构造函数也需要其他通用类的实例代码
javascript - 具体 $scope.apply();场景 :
我是 Angular 的新手，我一直在尝试了解它的工作原理。我正在制作一个简单的应用程序，其中有人可以通过简单的 html 界面添加用户并使用 SQLite 将其存储在数据库中，然后他们可以编辑或删除
c++ - 具体 "getter setter"专用对象
我想创建一个用于存储数据的对象，限制读/写访问。例如: OBJ obj1; OBJ obj2; // DataOBJ has 2 methods : read() and write() DataO
c# - 具体 .Net 类的依赖注入(inject)
注入(inject)/隔离密封在 dll 中且不实现接口(interface)的类的首选方法是什么？我们使用 Ninject。假设我们有一个类“Server”，我们想要注入(inject)/隔离“
php - 如何将 Android 应用程序连接到 mySQL *具体*
在花费了至少 10 个小时的时间浏览在线资源、视频和教程之后，我有两个关于将我的 Android 应用程序与 mySQL 数据库连接的问题。保存文件 1) 所有教程都将 php 文件保存在 C/WA
django - 我应该以任何方式避免 Django 中的多表(具体)继承吗？
许多有经验的开发人员建议不要使用 Django multi-table inheritance因为它的性能不佳: Django gotcha: concrete inheritance通过 Jacob
c# - 无法将类型 [具体] 隐式转换为 [接口(interface)]
我知道我冒着挨揍的风险，但我觉得我在这件事上要绕圈子。为了让模型可用于多个项目，我们已将模型移出到一个单独的项目(一个 DLL)中，作为一系列要实现的接口(interface)。我们的界面上有这一行:
unit-testing - 除了 "all of them"作为答案之外，什么类型的应用程序(具体)在单元测试中取得了真正的成功？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
css - 具体 Mac 显示 : inline-block issue
我遇到了一个特定 mac 的问题，它没有显示我正确构建的某个网站。我测试过的所有其他 mac 和 pc 都能正确显示网站，但是在所有浏览器中这个特定的 mac 显示不正确就像提到的那样，这在其他每台计
c# - 具有抽象(基)/具体(继承)类的 DataContractSerializer
给定这段代码 public override void Serialize(BaseContentObject obj) { string file = ObjectDataStoreFold
php - 具体 5.8.2 类 'finfo' 未找到
我已经搜索了网络和我的服务器，但我无法找到我网站的 php.ini。我的网站出现以下错误。 Class 'finfo' not found Details G:\inetpub\wwwroot\lan
mysql - 如何使用 View 执行复杂的 sql 查询，而不是依赖中间(具体)表
SQL 爱好者: 我正在尝试通过玩以下用例来挖掘我一些生疏的 sql 技能: 假设我们有一家有线电视公司，并且有跟踪的数据库表: 电视节目，观看我们节目的客户，以及观看事件(特定客户观看特定节目的
javascript - 使用 vanilla JavaScript 创建的 HTML5 web 组件应该有多通用/具体？
我正在设计一个使用 HTML5 网络组件(HTML 导入、影子 DOM、模板和自定义 HTML 元素)的网络应用程序，这些组件是通过普通 JavaScript(无框架)实现的。 Web 应用程序相当简

首页

博学

6Ren·AI

商城

string - 近似字符串匹配的具体算法代码

编辑