gpt4 book ai didi

python - 没有沉重的数据库如何进行模糊字符串搜索?

转载 作者:太空狗 更新时间:2023-10-29 22:17:27 24 4
gpt4 key购买 nike

我有目录号到产品名称的映射:

35  cozy comforter
35 warm blanket
67 pillow

并且需要搜索来查找拼写错误的混合名称,例如“warm cmfrter”

我们有使用编辑距离 (difflib) 的代码,但它可能无法扩展到 18000 个名称。

我用 Lucene 实现了类似的东西,但作为 PyLucene仅包装 Java,这会使最终用户的部署变得复杂。

SQLite 通常不会编译全文或评分。

Xapian bindings就像 C++,有一些学习曲线。

Whoosh尚未得到充分记录,但包含一个可滥用的拼写检查器。

还有什么?

最佳答案

显然,快速进行模糊比较的唯一方法是减少模糊比较;)

我们现在保留一个单词索引,而不是编写另一个 n-gram 搜索或改进 Whoosh 中的搜索,检索所有至少有一个(正确拼写)单词与查询相同的条目,并使用 difflib 对这些条目进行排名。在这种情况下效果很好。

关于python - 没有沉重的数据库如何进行模糊字符串搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/834570/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com