gpt4 book ai didi

php - 在 PHP 中加速 levenshtein/similar_text

转载 作者:可可西里 更新时间:2023-11-01 12:52:02 25 4
gpt4 key购买 nike

我目前正在使用 similar_text将字符串与 ~50,000 的列表进行比较,虽然由于比较的数量非常慢,但它仍然有效。比较约 500 个独特的字符串大约需要 11 分钟。

在运行它之前,我确实检查了数据库,看它是否在过去被处理过,所以每次在初始运行后它都接近即时。

我确定使用 levenshtein会稍微快一些,并且有人在手册中发布的 LevenshteinDistance 函数看起来很有趣。我是否遗漏了一些可以显着加快速度的东西?

最佳答案

最后,levenshteinsimilar_text 都太慢了,因为它必须经过的字符串数量太多,即使有很多检查并且只使用它们一个作为最后的手段。

作为一项实验,我将一些代码移植到 C# 以查看它比交互代码快多少。它使用相同的数据集运行了大约 3 分钟。

接下来,我向表中添加了一个额外的字段,并使用双变音位 PECL 扩展为每一行生成键。结果很好,虽然因为一些包含数字这导致重复。我想我本来可以通过上述函数运行每个函数,但我决定不这样做。

最后我选择了最简单的方法,MySQL 的全文,效果很好。偶尔会出现错误,尽管它们很容易检测和更正。而且它运行速度非常快,大约 3-4 秒。

关于php - 在 PHP 中加速 levenshtein/similar_text,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1215720/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com