PHP:使用 levenshtein 距离来匹配单词-6ren

PHP:使用 levenshtein 距离来匹配单词

转载作者：行者123 更新时间：2023-12-01 10:51:38

29

4

我一直在阅读和测试 php levenshtein 中的一些示例。比较 $input 和 $words输出比较

$input = 'hw r u my dear angel';

    // array of words to check against
    $words  = array('apple','pineapple','banana','orange','how are you',
                    'radish','carrot','pea','bean','potato','hw are you');

输出

Input word: hw r u my dear angel
Did you mean: hw are you?

比较，删除数组中的hw are you。

$input = 'hw r u my dear angel';

    // array of words to check against
    $words  = array('apple','pineapple','banana','orange','how are you',
                    'radish','carrot','pea','bean','potato');

在第二次删除数组输出中的 hw are you

Input word: hw r u my dear angel
Did you mean: orange?

在 similar_text() 中的位置

 echo '<br/>how are you:'.similar_text($input,'how are you');
    echo '<br/>orange:'.similar_text($input,'orange');
    echo '<br/>hw are you:'.similar_text($input,'hw are you');

how are you:6
orange:5
hw are you:6

在第二次比较时，为什么它输出 orange 而 how are you 也有 6 个类似的文本，如 hw are you？有什么方法可以改进或更好的方法吗？我也将所有可能的输入保存在数据库中。我应该查询它并存储在 array 中，然后使用 foreach 来获取 levenshtein distance？但如果有数百万，那会很慢。

代码

  <?php
    // input misspelled word
    $input = 'hw r u my dear angel';

    // array of words to check against
    $words  = array('apple','pineapple','banana','orange','how are you',
                    'radish','carrot','pea','bean','potato','hw are you');


    // no shortest distance found, yet
    $shortest = -1;

    $closest = closest($input,$words,$shortest);


    echo "Input word: $input<br/>";
    if ($shortest == 0) {
        echo "Exact match found: $closest\n";
    } else {
        echo "Did you mean: $closest?\n";
    }
    echo '<br/><br/>';

    $shortest = -1;
    $words  = array('apple','pineapple','banana','orange','how are you',
                    'radish','carrot','pea','bean','potato');
    $closest = closest($input,$words,$shortest);
    echo "Input word: $input<br/>";
    if ($shortest == 0) {
        echo "Exact match found: $closest\n";
    } else {
        echo "Did you mean: $closest?\n";
    }

    echo '<br/><br/>';
    echo 'Similar text';
    echo '<br/>how are you:'.similar_text($input,'how are you');
    echo '<br/>orange:'.similar_text($input,'orange');
    echo '<br/>hw are you:'.similar_text($input,'hw are you');



    function closest($input,$words,&$shortest){
        // loop through words to find the closest
    foreach ($words as $word) {

        // calculate the distance between the input word,
        // and the current word
        $lev = levenshtein($input, $word);

        // check for an exact match
        if ($lev == 0) {

            // closest word is this one (exact match)
            $closest = $word;
            $shortest = 0;

            // break out of the loop; we've found an exact match
            break;
        }

        // if this distance is less than the next found shortest
        // distance, OR if a next shortest word has not yet been found
        if ($lev <= $shortest || $shortest < 0) {
            // set the closest match, and shortest distance
            $closest  = $word;
            $shortest = $lev;
        }


    }
    return $closest;
    }
    ?>

最佳答案

首先，similar_text() 输出什么并不重要，因为它使用另一种算法来计算字符串之间的相似度。

让我们试着理解为什么 levenstein() 认为 hw r u my Dear ange 更接近 orange 而不是 '你好吗。维基百科有一个 good definition莱文斯坦距离是多少。

Informally, the Levenshtein distance between two words is the minimum number of single-character edits (insertion, deletion, substitution) required to change one word into the other.

现在让我们计算一下我们需要进行多少次编辑才能将 hw r u my Dear angel 变为 orange。

hw r u my Dear angel → hw r u my Dear angel(删除最后一个字符)
hw r u my Dear ange → hw r u my dearange(删除最后一个空格)
hw r u my dearange → arange(删除前 12 个字符)
arange → 橙色(用 o 代替 a)

所以总共需要 1 + 1 + 12 + 1 = 15 次编辑才能将 hw r u my Dear angel 变为 orange。 p>

这是你亲爱的天使到你好吗的转变。

hw r u my Dear angel → how r u my Dear 天使(插入 o 字符)
亲爱的天使你好吗→亲爱的天使(删除7个字符)
how Dear angel → how ar angel(删除2个字符)
how ar angel → how are angel(插入 e 字符)
how are angel → how are ang(删除最后 2 个字符)
how are ang → how are you(替换最后 3 个字符)

总 1 + 7 + 2 + 1 + 5 = 16 次编辑。因此，正如您所看到的莱文斯坦距离 orange 更接近 hw r u my Dear angel ;-)

关于PHP:使用 levenshtein 距离来匹配单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18757251/

29

4

0

文章推荐： java - 如何在java中创建复杂的Fluent界面？

文章推荐： r - 是否可以在 R 中默认在新窗口中绘图？

levenshtein-distance - Damerau-Levenshtein php
我正在寻找 Damerau–Levenshtein 的实现PHP 的算法，但我的 friend google 似乎找不到任何东西。到目前为止，我必须使用 PHP 实现的 Levenshtein(没有
java - Levenshtein 到 Damerau-Levenshtein
我坐在这里用 Java 为我的主程序编写一些算法(这是迄今为止的第一个)。我对 levenshtein 算法进行了很好的编程，这要归功于 wiki 对新手的伪代码非常好，还有一个很好的教程 :D 然后
algorithm - Levenshtein Automata 和 Damerau-Levenshtein 距离算法有什么区别？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。问题必须表现出对正在解决的问题的最低限度的理解。告诉我们您尝试过的方法、为什么不起作用以及它应该起作用
PHP改进计算字符串相似度的函数similar_text()、levenshtein()
similar_text()中文汉字版复制代码代码如下: <?php &nbs
levenshtein-distance - 编辑器自动机
我实现了一个 levenshtein trie 来查找与给定单词相似的单词。我的目标是有一种快速的方法来进行拼写纠正。但是我发现有一种更快的方法可以做到这一点: 莱文斯坦自动机我只是有一个问题.
levenshtein-distance - Levenshtein和Trigram的替代品
说我的数据库中有以下两个字符串： (1) 'Levi Watkins Learning Center - Alabama State University' (2) 'ETH Library' 我的软
python - Levenshtein 距离给出奇怪的值
这是一个字符串 T : 'men shirt team brienne funny sarcasm shirt features graphic tees mugs babywear much rea
levenshtein-distance - 比较相似度算法
我想使用字符串相似度函数来查找数据库中损坏的数据。我遇到了其中几个: 贾罗，贾罗-温克勒，编辑，欧几里得和 Q-gram，我想知道它们之间有什么区别以及它们在什么情况下效果最好？最佳答案
python - Levenshtein 函数查找最接近的名称
我需要一些有关以下代码的帮助。在这种情况下，我需要找到与输入的单词最接近的单词来测试我将 word_0 设置为“pikaru”，它应该返回“pikachu”。 levenshtein 函数返回我们输入
mysql - Levenshtein 无法查找俄语单词
我有一个脚本可以使用 Levenshtein 在数据库中搜索单词。当我搜索英文单词时一切正常，但是当我搜索俄语单词时，MySQL 控制台报错: [22007][1366] (conn=31079) I
c - levenshtein 总是无限循环递归C
列支敦士登在c编程中总是返回无限循环这是我的代码我尝试了很多解决方案并且我尝试存储变量并使用指针但总是有无限循环我认为这是因为3个递归调用但在列支敦士登算法的文档中我找到了这个实现 #include
javascript - Levenshtein 阵列测距
有什么方法可以对数组使用 Levenshtein Distance例如我有一个包含多个文本的 div one,two,three,longtext,anything 和一个输入 // sometex
java - Levenshtein 距离的并行实现随着线程的增加而变慢
这是我为了好玩而编写的 Levenshtein 距离的并行实现。我对结果很失望。我在核心 i7 处理器上运行它，所以我有很多可用线程。但是，当我增加线程数时，性能会显着下降。我的意思是，对于相同大小的
PHP Levenshtein 查询结果
我想对 mysql 查询结果执行编辑。查询如下所示: $query_GID = "select `ID`,`game` from `gkn_catalog`"; $result_GID = $dbc
Postgresql levenshtein 和预组合字符与组合字符
我有包含两个相似字符的字符串。两者都显示为带有 ogonek 的小“a”: ± ± (注意:根据渲染器，它们有时呈现相似，有时略有不同) 但是，它们是不同的: 第一个字符的特征: 在 PostgreS
Elasticsearch:Levenshtein 排序
我有一个足够有效的查询，但我想通过在查询参数和相关字段之间使用 levenshtein 对结果进行排序。现在我在 ES 中进行查询，然后在我的应用程序中进行排序。现在我正在测试脚本字段。这是脚本 i
mysql - Levenshtein 距离公式在大数据库中的性能缓慢
我使用此查询来搜索公司详细信息 select * from company_details where levenshtein_ratio('New York Life Insurance Compa
python - Levenshtein 距离与字符加扰？
我正在寻找一个字符串比较指标 ala Levenshtein，当字符串中的字符被打乱时，它也可以工作。有谁知道这样的指标？如果有一个 Python 模块可以计算这样的指标，那就太好了。谢谢! 最佳答案
python - Levenshtein 实现能够处理大字符串和向量
R 中有一个名为stringdist 的package，它包含计算Levenshtein 字符串距离的函数。这个包有两个问题: 1st 它不适用于大字符串，例如: set.seed(1) a.str
python - 导入模块，Levenshtein
我正在编写一个使用比较来确定模糊匹配的脚本，因此我正在使用 Levenshtein 功能。不幸的是，当我在终端窗口中运行 easy_install python-Levenshtein 时，当我在其

首页

博学

6Ren·AI

商城

PHP:使用 levenshtein 距离来匹配单词