gpt4 book ai didi

c# - Lucene 多个索引 : Normalize document scores?

转载 作者:行者123 更新时间:2023-11-30 16:36:12 25 4
gpt4 key购买 nike

假设我在多台 PC 上有多个 lucene 索引(不是副本)。

我查询每个索引,然后合并结果。有什么方法可以标准化文档分数,以便我可以按分数(相关性)排序吗?

我的意思是,索引 A 中的文档 A 的分数无法与索引 B 中的文档 B 的分数相比较,除非我进行某种归一化......不是吗?

谢谢罗伊

最佳答案

首先,研究 Lucene Similarity Documentation .在那里的所有因素中,一个索引与另一个索引唯一不同的是 inverse document frequency (idf)。 .

我建议你使用 Luke或调试器以查看不同索引的 idfs 的影响。您可能会发现这只会产生很小的影响。

这里是 a discussion about using a global idf ,这里 - a Wiki page about distributed search design in Solr .我相信问题还没有解决。

Lucene 评分不适合简单的规范化。我建议您尝试使文档分布尽可能随机,然后比较您在两个索引中的命中率排名。

关于c# - Lucene 多个索引 : Normalize document scores?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1143672/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com