gpt4 book ai didi

lucene - Elasticsearch - 如果词频更高,则得分更高

转载 作者:行者123 更新时间:2023-11-29 02:52:34 25 4
gpt4 key购买 nike

我有 2 个文档,正在搜索关键字“Twitter”。假设这两个文档都是带有“标签”字段的博客文章。

文档 A 在“标签”字段中只有 1 个术语,它是“Twitter”。文档 B 在“标签”字段中有 100 个术语,但其中 3 个是“Twitter”。

尽管文档 B 的频率更高,但 Elastic Search 为文档 A 提供了更高的分数。但是分数被“稀释”了,因为它有更多的术语。我如何给文档 B 更高的分数,因为它具有更高的搜索词频率?

我知道 ElasticSearch/Lucene 会根据文档中的术语数量执行一些规范化。如何禁用此归一化,以便文档 B 获得更高的分数?

最佳答案

正如其他答案所说,看看您是否在单个分片上有相同的结果会很有趣。我想你会的,这取决于标签字段的规范,在使用 tf/idf 相似性(默认)计算分数时会考虑到这一点。

事实上,lucene 确实考虑了术语频率,换句话说,术语在字段中出现的次数(在您的情况下为 1 或 3),以及反向文档频率,换句话说,术语是如何出现的经常出现在索引中,以便将其与查询中的其他术语进行比较(在您的情况下,如果您正在搜索单个术语,它没有任何区别)。

但是还有另一个因素称为规范,它奖励较短的字段并考虑最终的索引时间提升,这可以是每个字段(在映射中)甚至每个文档。您可以在搜索请求中启用解释选项并查看解释输出来验证规范是否是导致结果的原因。

我猜第一个文档只包含该标签这一事实使得它比其他多次包含该标签但也包含很多其他标签的文档更重要。如果您不喜欢这种行为,您可以在标签字段的映射中禁用规范。如果该字段是 "index":"analyzed" (默认),则默认情况下应启用它。如果您不想分析您的标签字段,您可以切换到 "index":"not_analyzed"(这通常有意义,但取决于您的数据和域)或添加 “omit_norms”:标签字段映射中的 true 选项。

关于lucene - Elasticsearch - 如果词频更高,则得分更高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16631026/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com