gpt4 book ai didi

string - 查找具有相似文本的文章的算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:12:27 25 4
gpt4 key购买 nike

我在数据库中有很多文章(带有标题、文本),我正在寻找一种算法来找到 X 篇最相似的文章,就像 Stack Overflow 的“相关问题”一样,当你提出问题时。

我试着用谷歌搜索这个,但只找到了关于其他“相似文本”问题的页面,比如将每篇文章与所有其他文章进行比较,并将相似性存储在某处。 SO 在我刚刚输入的文本上“实时”执行此操作。

如何?

最佳答案

Edit distance不是一个可能的候选者,因为它依赖于拼写/词序,并且考虑到您实际有兴趣搜索的文档的大小和数量,计算量比 Will 引导您相信的要多得多。

像 Lucene 这样的东西是可行的方法。您为所有文档编制索引,然后当您想要查找与给定文档相似的文档时,将给定文档转换为查询,然后搜索索引。 Lucene 内部将使用 tf-idf和一个 inverted index使整个过程花费的时间与可能匹配的文档数量成正比,而不是集合中的文档总数。

关于string - 查找具有相似文本的文章的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/246961/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com