gpt4 book ai didi

search - 您如何有效地实现文档相似性搜索系统?

转载 作者:行者123 更新时间:2023-12-03 17:21:10 24 4
gpt4 key购买 nike

您如何为由描述的项目实现“类似项目”系统?
一组标签?

在我的数据库中,我有三个表,文章、文章标签和标签。每个
文章通过多对多与多个标签相关
关系。对于每篇文章,我想找到五个最相似的
文章来实现“如果你喜欢这篇文章,你就会喜欢这些
也”系统。

我熟悉 Cosine similarity
使用该算法效果很好。但这是减慢的方法。为了
每篇文章,我需要遍历所有文章,计算
文章对的余弦相似度,然后选择五个
相似度最高的文章。

有 20 万篇文章和 3 万个标签,我需要半分钟
计算单篇文章的相似文章。所以我需要
产生与余弦大致一样好的结果的另一种算法
相似但可以实时运行并且不需要
我每次都遍历整个文档语料库。

也许有人可以为此提出现成的解决方案?大多数
我查看的搜索引擎不支持文档相似性
搜索。

最佳答案

一些问题,

  • ArticleTag 与 Tag 有何不同?或者那是M2M映射表?
  • 你能勾勒出你是如何实现余弦匹配算法的吗?
  • 为什么不将文档标签存储在某种内存数据结构中,仅使用它来检索文档 ID?这样,您只需在检索期间访问数据库。
  • 根据文档添加的频率,此结构可以设计为快速/慢速更新。

  • 对答案的初步直觉 - 我会说,在线聚类算法(也许对共现矩阵进行主成分分析,这将近似于 K 均值聚类?)。一旦你回答了上面的一些问题,就会更好地提炼。

    干杯。

    关于search - 您如何有效地实现文档相似性搜索系统?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2191259/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com