gpt4 book ai didi

frameworks - 文档相似度框架

转载 作者:行者123 更新时间:2023-12-04 01:03:27 24 4
gpt4 key购买 nike

我想创建一个在其数据库中搜索类似文档的应用程序;例如。用户上传文档(文本、图像等),我想在我的应用程序中查询类似的文档。

我已经为该过程创建了必要的算法(指纹识别、特征提取、散列、散列比较等),我正在寻找一个将所有这些结合起来的框架。

例如,如果我要在 Lucene 中实现它,我会执行以下操作:

  • 创建自定义“tokenizer”和“stemmer”(〜特征提取和指纹识别)
  • 将创建的元素添加到 Lucene 索引
  • 最后使用 MoreLikeThis 类查找相似文档

所以,基本上 Lucene 可能是一个不错的选择 - 但据我所知,Lucene 并不是一个文档相似性搜索引擎,而是一个基于术语的搜索引擎。

我的问题是:是否有任何应用程序/框架可能适合上述问题?

谢谢,克丽丝

更新:我上面描述的过程似乎称为基于内容的媒体(声音、图像、视频)检索。

有很多项目为此使用 Lucene,请参阅:http://wiki.apache.org/lucene-java/PoweredBy (Lire,Alike等),但还是没有找到专门的框架...

最佳答案

由于您使用的是 Lucene,您可能会看看 SOLR。我确实意识到它也不是一个专门用于您目的的框架,但它确实在 Lucene 之上添加了一些非常方便的东西。鉴于 Lucene 的可插拔性、它的业绩记录以及那里有大量有用资源的事实,SOLR 可能会帮助您完成工作。

另外,answer @mindas 指出,链接到 the blog post描述如何使用 SOLR 实现您的目标的技术细节(但您可能已经同时阅读过)。

关于frameworks - 文档相似度框架,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16352688/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com