python - 作者姓名的近似字符串匹配

python - 作者姓名的近似字符串匹配 - 模块和策略

转载作者：太空狗更新时间：2023-10-30 01:29:44

25

4

我创建了一个小程序来检查作者是否存在于作者数据库中。我无法找到解决此问题的任何特定模块，因此我使用模块从头开始编写它以进行近似字符串匹配。

该数据库包含大约 6000 位作者，并且格式非常糟糕(许多拼写错误、变体、标题如“博士”等)。查询作者列表通常在 500-1000 之间(我有很多这样的列表)，因此速度非常重要。

我的一般策略是尽可能多地修剪和过滤数据库并寻找精确匹配。如果未找到匹配项，我将继续进行近似字符串匹配。

我目前正在使用内置的 difflib.get_close_matches，它完全符合我的要求 - 但是，它非常慢(几分钟)。因此，我正在寻找其他选择:

什么是最快的模块，可以返回最好的，比方说，在数据库中给出查询字符串超过某个阈值的 3 个匹配项？
比较两个字符串最快的模块是什么？

我发现的唯一一个是 fuzzy wuzzy，它比 difflib 还要慢。

最佳答案

尝试 fuzzywuzzy使用 native C python-levenshtein已安装库。

我在我的 PC 上运行了一个基准测试，以在有和没有 C-native levenshtein backend 的 ~19k 单词列表中找到 8 个单词的最佳候选者。安装(使用 pip install python_Levenshtein-0.12.0-cp34-none-win_amd64.whl)我得到了这些时间:

无 C 后端:
在 48.591717004776 秒(0.00032039058052521366 秒/搜索)内比较了 151664 个单词。
已安装 C 后端:
在 13.034106969833374 秒(8.594067787895198e-05 秒/搜索)内比较了 151664 个单词。

那是 ~x4 快(但没有我预期的那么快)。

结果如下:

0 of 8: Compared 'Lemaire' --> `[('L.', 90), ('Le', 90), ('A', 90), ('Re', 90), ('Em', 90)]`
1 of 8: Compared 'Peil' --> `[('L.', 90), ('E.', 90), ('Pfeil', 89), ('Gampel', 76), ('Jo-pei', 76)]`
2 of 8: Compared 'Singleton' --> `[('Eto', 90), ('Ng', 90), ('Le', 90), ('to', 90), ('On', 90)]`
3 of 8: Compared 'Tagoe' --> `[('Go', 90), ('A', 90), ('T', 90), ('E.', 90), ('Sagoe', 80)]`
4 of 8: Compared 'Jgoun' --> `[('Go', 90), ('Gon', 75), ('Journo', 73), ('Jaguin', 73), ('Gounaris', 72)]`
5 of 8: Compared 'Ben' --> `[('Benfer', 90), ('Bence', 90), ('Ben-Amotz', 90), ('Beniaminov', 90), ('Benczak', 90)]`
6 of 8: Compared 'Porte' --> `[('Porter', 91), ('Portet', 91), ('Porten', 91), ('Po', 90), ('Gould-Porter', 90)]`
7 of 8: Compared 'Nyla' --> `[('L.', 90), ('A', 90), ('Sirichanya', 76), ('Neyland', 73), ('Greenleaf', 67)]`

这是基准测试的 python 代码:

import os
import zipfile
from urllib import request as urlrequest
from fuzzywuzzy import process as fzproc
import time
import random

download_url = 'http://www.outpost9.com/files/wordlists/actor-surname.zip'
zip_name = os.path.basename(download_url)
fname, _ = os.path.splitext(zip_name)

def fuzzy_match(dictionary, search):
    nsearch = len(search)
    for i, s in enumerate(search):
        best = fzproc.extractBests(s, dictionary)
        print("%i of %i: Compared '%s' --> `%s`" % (i, nsearch, s, best))

def benchmark_fuzzy_match(wordslist, dict_split_ratio=0.9996):
    """ Shuffle and split words-list into `dictionary` and `search-words`. """
    rnd = random.Random(0)
    rnd.shuffle(wordslist)
    nwords = len(wordslist)
    ndictionary = int(dict_split_ratio * nwords)

    dictionary = wordslist[:ndictionary]
    search = wordslist[ndictionary:]
    fuzzy_match(dictionary, search)

    return ndictionary, (nwords - ndictionary)

def run_benchmark():
    if not os.path.exists(zip_name):
        urlrequest.urlretrieve(download_url, filename=zip_name)

    with zipfile.ZipFile(zip_name, 'r') as zfile:
        with zfile.open(fname) as words_file:
            blines = words_file.readlines()
            wordslist = [line.decode('ascii').strip() for line in blines]
            wordslist = wordslist[4:]  # Skip header.

            t_start = time.time()
            ndict, nsearch = benchmark_fuzzy_match(wordslist)
            t_finish = time.time()

            t_elapsed = t_finish - t_start
            ncomparisons = ndict * nsearch
            sec_per_search = t_elapsed / ncomparisons
            msg = "Compared %s words in %s sec (%s sec/search)."
            print(msg % (ncomparisons, t_elapsed, sec_per_search))

if __name__ == '__main__':
    run_benchmark()

关于python - 作者姓名的近似字符串匹配 - 模块和策略，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13980656/

25

4

0

文章推荐： python - API 中对象启动的 OO 设计模式

文章推荐： c# - xUnit.net IsType 在返回类型的 MS 测试中等效

文章推荐： c# - Kafka Confluent 库中 poll 和 consume 的区别

文章推荐： python - 哪个更灵活？ django-registration 或 django-userena

三种缓存策略：Cache Aside 策略、Read/Write Through 策略、Write Back 策略
作者：小林coding 计算机八股文网站：https://xiaolincoding.com 大家好，我是小林。今天跟大家聊聊，常见的缓存更新策略。 Cache Aside（旁路缓存）策略； Rea
git - Mercurial merge 策略 vs Git merge 策略
我使用 git 多年，最近为了一个项目改用 mercurial。在过去的 6 个月里，我已经学会了如何通过命令行很好地使用 Mercurial。这可能是我的想象，但在我看来，mercurial 在
oauth-2.0 - Passport & JWT & Google/Facebook 策略 - 我如何结合 JWT 和 Google/Facebook 策略？
这个问题适合任何熟悉的人 Node.js express Passport 带有 Passport 的 JWT 身份验证(JSON Web token ) Facebook OAuth2.0 或谷歌
记录平等的 Coq 策略？
在 Coq 中，当试图证明记录的相等性时，是否有一种策略可以将其分解为所有字段的相等性？例如， Record R := {x:nat;y:nat}. Variables a b c d : nat.
javascript Bootstrap 策略
我正在处理的项目目前只有一个 Bootstrap 文件，用于初始化应用程序中的所有 javascript 对象。类似于下面的代码 if(document.getElementById('nav'))
ubuntu - OpenLDAP 策略
我正在考虑使用 OpenLDAP 在首次登录时添加密码到期和强制更改密码。似乎使用 ppolicy 覆盖来实现这一点。当我在 ppolicy.schema 中看到这个时，我开始使用 ppolicy
避免显卡敏感性的 WPF 策略？
这基本上是我昨天问的一个问题的重新陈述，因为我得到的一个答案似乎没有理解我的问题，所以我一定是不清楚。我的错。因为 WPF 依赖于 DirectX，所以它对卡和驱动程序的内部非常敏感。我有一个案例，
SAML NameId 策略
我是单点登录(SSO)概念的新手。我开始知道 SAML 请求和响应是实现 SSO 流程的最佳方式。然后我开始阅读有关 SAML2.0 的信息。我来了一个术语 NameIdPolicy 在 saml1.
新雪豹用户的 Perl 策略？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 5年前关闭。 Improve this questi
.NET 混淆工具/策略
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
用于限制数据库扩展的 Azure 策略
在 Azure 上创建新的 SQL 数据库时，它将“计算+存储”选项设置为“2 vCore + 32GB 数据最大大小”作为默认配置，但我不想使用 vCore，我可以更改它。但问题是，是否可以通过策略
Azure 策略 - 防止在未经身份验证的情况下创建应用程序服务
我希望创建一项策略，防止在未启用身份验证的情况下创建应用服务(仅审核它们是不够的)。以下策略可以正确识别未启用身份验证的现有资源: { "mode": "All", "policyRule"
Azure 策略创建一个deployifnotexists 策略
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错，但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
Azure 策略创建一个deployifnotexists 策略
我正在尝试从现有 AuditIfNotExists 策略创建 DeployIfNotExists 策略。部署时不会出错，但会错误提示“没有相关资源与策略定义中的效果详细信息匹配”。当评估政策时。当我将
Django json 策略？
我正在使用 wunderground 的 json api 来查询我网站上的天气状况。 api 为我提供了一个包含所有必要数据的漂亮 json 对象，但我每天只能进行多次调用。存储这些数据的首选方式是
Java OOP 策略
我有一个名为可视化数据结构的项目。我有这样的 OOP 设计。 Class VisualDataStructures extends JFrame Class ControlPanel extends
javascript "include"策略
这个问题在这里已经有了答案: 关闭 14 年前。副本: Use javascript to inject script references as needed? Javascript 没有任何指
Android StrictMode 策略
Android 应用程序遇到了一些 ANR 问题，因此我实现了 StrictMode 策略。以前从未使用过这个，所以希望有人可以帮助解释以下内容: 为什么日志显示 2 个看似相似的违规行为，除了前 4
algorithm - 寻找酒店谜语的算法/策略
我目前正在尝试解决一个问题。假设我们在路上行驶，我们知道路上有 10 家酒店。每家酒店都有 0 到 6 星。我的问题是:找到选择星级酒店的最佳解决方案。唯一的问题是:您不能回头去参观您已经决定不去的酒
安卓 MVP 策略
我正在将我的应用程序迁移到 MVP。从这个 konmik 中获得了有关静态演示者模式的提示这是我的简要 MVP 策略。为简洁起见，删除了大部分样板和 MVP 监听器。这个策略帮助我改变了方向，证明了

首页

博学

6Ren·AI

商城

python - 作者姓名的近似字符串匹配 - 模块和策略