gpt4 book ai didi

solr - Apache Solr 中的相关反馈

转载 作者:行者123 更新时间:2023-12-03 20:58:13 25 4
gpt4 key购买 nike

我想实现 relevance feedbackSolr . Solr 已经有 More Like This特征:给定单个文档,返回一组按照与单个输入文档的相似度排序的相似文档。是否可以将 Solr 的 More Like This 功能配置为更像那些?换句话说:给定一组文档,返回与输入集相似的文档列表(按相似度排序)。

根据对this question的回答将 Solr 的 More Like This 变成 More Like That 可以通过以下方式完成:

  • 获取返回指定文档的查询结果集的url。例如,网址 http://solrServer:8983/solr/select?q=id:1%20id:2%20id:3返回对查询的响应 id:1 id:2 id:3这实际上是文档 1、2、3 的串联。
  • 把上面的url(指定文档的串联)放在url.stream中More Like This 处理程序的 GET 参数:http://solrServer:8983/solr/mlt?mlt.fl=text&mlt.mintf=0&stream.url=http://solrServer:8983/solr/select%3Fq=id:1%20id:2%20id:3 .现在, More Like This 处理程序将文档 1、2 和 3 的串联视为单个输入文档,并返回与串联相似的一组排序文档。

  • 这是一个非常糟糕的实现:将输入文档集视为一个大文档会区别于短文档,因为短文档只占整个大文档的一小部分。

    Solr 的 More Like 此功能由 The Rocchio Algorithm 的变体实现:它采用(单个)输入文档的前 20 个术语(具有最高 TF-IDF 值的术语),并将这些术语用作修改后的查询,根据它们的 TF-IDF 进行提升。我正在寻找一种方法来配置 Solr 的 More Like This 功能以将多个文档作为其输入,从每个输入文档中提取前 n 个术语,并使用根据其 TF-IDF 提升的这些术语查询索引。

    是否可以将 More Like This 配置为这样的行为?如果没有,在 Solr 中实现相关性反馈的最佳方法是什么?

    最佳答案

    不幸的是,不可能以这种方式配置 MLT 处理程序。

    一种方法是实现自定义 SearchComponent并将其注册到(专用)SearchHadler .

    我已经做了类似的事情,如果你看起来很容易original implementation MLT 组件。

    最难的部分是同步不同分片服务器的结果,但如果不使用分片可以跳过。

    我也强烈建议使用 您自己的 实现中的参数以防止与其他组件发生冲突。

    关于solr - Apache Solr 中的相关反馈,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17008028/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com