python - 尽可能快的类字典匹配-6ren

python - 尽可能快的类字典匹配

转载作者：塔克拉玛干更新时间：2023-11-03 03:05:44

我将不得不在 Python 中执行类似拼写检查的操作，如下所示:

我有一个巨大的单词列表(我们称之为词典)。现在我得到了一些文本(我们称之为示例)。我必须在词典中搜索每个样本词。如果我找不到它，则该示例词是错误的。

简而言之 - 一个强力拼写检查器。然而，线性搜索词典中的每个样本词肯定会很慢。执行此操作的更好方法是什么？

复杂的因素是样本和词典都不是英文的。它是一种语言，而不是 26 个字符，可以有 300 多个 - 存储在 Unicode 中。

任何算法/数据结构/并行化方法的建议都会有所帮助。以低于 100% 的准确度为代价的高速算法将是完美的，因为我不需要 100% 的准确度。我知道 Norvig 的算法，但它似乎是特定于英语的。

最佳答案

您可以使用一组 Unicode 字符串:

s = set(u"rabbit", u"lamb", u"calf")

并使用 in 操作符来检查一个单词是否出现:

>>> u"rabbit" in s
True
>>> u"wolf" in s
False

这个查找本质上是 O(1)，所以字典的大小无关紧要。

编辑:这是(区分大小写的)拼写检查器(2.6 或更高版本)的完整代码:

from io import open
import re
with open("dictionary", encoding="utf-8") as f:
    words = set(line.strip() for line in f)
with open("document", encoding="utf-8") as f:
    for w in re.findall(r"\w+", f.read()):
        if w not in words:
            print "Misspelled:", w.encode("utf-8")

(print 假定您的终端使用 UTF-8。)

关于python - 尽可能快的类字典匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10073267/

文章推荐： algorithm - 人们如何证明计算机视觉方法的正确性？

文章推荐： java - 如何在保持空白的同时拆分()一个字符串

文章推荐： c# - 获取集合的所有子集

list - KDB:如何从列表中做出(尽可能)均匀分布的选择？
我知道在 KDB 中，如果您有一个列表，例如... l:`apples`oranges`pears` 您可以像下面这样进行 N 次随机选择: 9?l 但是如何尽可能均匀地选择列表中的每个项目？最佳答
javascript - 在 IE 中模拟 webkit(尽可能)
我真的厌倦了它。我有一个高级 Web 应用程序依赖于大量 Javascript 库(jQuery、jQueryUI、OpenLayers、highcharts、EJSChart 等等)。不用说，Int

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 尽可能快的类字典匹配