gpt4 book ai didi

python - 不使用数据库\索引的模糊运行时搜索

转载 作者:行者123 更新时间:2023-12-01 06:16:16 24 4
gpt4 key购买 nike

我需要通过检查预定义字符串的模糊匹配的每个条目来过滤文本文章流(我正在搜索拼写错误的产品名称,有时它们具有不同的单词顺序和额外的非字母字符,例如“:”或“,” )。

通过将这些文章放入 sphinx 索引并对其进行搜索,我得到了很好的结果,但不幸的是,我每秒都会收到数百篇文章,并且在获取每篇文章后更新索引太慢(而且我知道它不是为此类任务设计的) )。我需要一些库,它可以在小〜100kb文本的内存索引中构建并对其执行模糊搜索,是否存在这样的东西?

最佳答案

这个问题与 Bayesian spam filtering 几乎相同已经为此编写的工具只需经过培训即可根据您的标准进行识别。

添加以回复评论:

那么你现在如何将流分区到容器中?如果您已经有一个由单独文章组成的语料库,只需将其输入分类器即可。贝叶斯分类器是在上下文中进行模糊内容匹配的方法,可以对从垃圾邮件到核苷酸到天文光谱类别的所有内容进行分类。

您可以使用不太随机的方法(例如 Levenshtein),但在某些时候您必须描述命中和未命中之间的差异。贝叶斯方法的美妙之处在于,您实际上不需要明确知道如何分类,特别是如果您手中已经有一个隔离的语料库。

关于python - 不使用数据库\索引的模糊运行时搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3224207/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com