gpt4 book ai didi

nlp - 模糊句子搜索算法

转载 作者:行者123 更新时间:2023-12-02 04:07:01 24 4
gpt4 key购买 nike

假设我有一组短语-平均长度约为10000-7-20个单词,我想在其中找到一些给定的短语。我要查找的词组可能会有一些错误-例如遗漏一个或两个单词,某些单词放错了位置,或者一些随机单词-例如我的数据库包含“当我骑着红色自行车时,我看到了克里斯汀”,而我希望“在我骑蓝色自行车时,看到克里斯汀”,或“我骑自行车时,我看到克里斯汀和马里恩”。有什么好的方法可以解决这个问题?我知道Levenhstein的距离,并且我还想这个问题可能没有简单,好的解决方案。

最佳答案

一个好的文本搜索引擎将提供诸如fsh之类的功能。一种典型的方法是创建一个查询,该查询匹配是否出现任何单词,并使用权重对结果进行排序,该权重基于彼此相邻出现的术语数量,并与它们的出现概率成反比,因为不常见的单词会更少可能是偶然发生的。关于这种事情,有一个完整的理论叫做信息检索,但是也许您知道这一点。此外,您还希望通过归一化大小写,标点符号等并应用一些基本的语言转换(词干)来解决单词级模糊性问题,并在某些情况下引入同义词词典,尤其是当存在领域知识时可用来调节它。

如果您有兴趣弄乱这些东西,请尝试使用开源搜索引擎,this article by Vik从2009年的角度进行了合理的调查,this one by Middleton and Baeza-Yates对该主题进行了详细的介绍。

关于nlp - 模糊句子搜索算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7113008/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com