gpt4 book ai didi

search - Solr:长度标准化/omitNorms = false有什么好处?

转载 作者:行者123 更新时间:2023-12-03 11:38:34 24 4
gpt4 key购买 nike

我们正在使用Solr搜索各种长度的文章。我们同时为描述性元数据(标题,作者,类别,关键字等)和文章全文建立索引。我们不会在索引时间提升相关性-所有提升都在查询时完成(我们使用dismax,以及各种qf,pf和bf提升)。

当前,我们的全文字段使用标准omitNorms = false;结果,所有其他相等的较短的文章(2-3列英寸的文章)通常比较长的特征长度(多页)文章具有更高的相关性。

在我们的案例中,文章长度是相关性的重要指标,因此我正在考虑在全文字段中设置omitNorms = true。

问题:1.为什么默认的lucene / solr行为将较短的场长提高到较高?这是什么原因?
2.为什么我不想省略规范?我不需要增加对该特定字段的查询,也不需要对该字段使用任何类型的构面。

最佳答案

问题1:

在较高的字段长度上增加较短的字段长度与确定文档相关性(称为TF-IDF)的基本概念有关(请参阅http://en.wikipedia.org/wiki/Tf%E2%80%93idf)。作为简短示例,请考虑您的搜索返回了两个文档:第一个是100个单词,第二个是1,000个单词。每个仅包含您的搜索关键字一次。由于第一个文档中的关键字占文本的1%,因此与长文档相比,短文档被认为与搜索更相关,而长文档中搜索的关键字仅占文本的0.1%。

问题2:

听起来像是根据您的要求,您可能想尝试省略规范。但是,这可能会以您意想不到的方式歪曲您的搜索结果。可能是您从长度标准化的一些不错的特性中受益,却没有意识到。另一种方法可能是将文档长度实际存储为某种标记字段,例如将文档标记为“short”,“medium”和“long”,然后增强与long或long,medium或其他内容匹配的文档。这也使最终用户能够在搜索时根据文档长度进行过滤。

同样,当我提到长度规范化的好属性时,您可能会想到存在涉及10个不同主题的超长文章的情况,其中之一与用户的搜索匹配,或者存在仅谈论一个主题的长文章。被搜寻。在这种情况下,您可能更喜欢长文章而不是超长文章(即使超长文章与搜索关键字的匹配次数更高)。这完全取决于您的数据和用例。

关于search - Solr:长度标准化/omitNorms = false有什么好处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6830795/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com