gpt4 book ai didi

algorithm - 不同ElasticSearch相似度算法的简单解释

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:51:28 25 4
gpt4 key购买 nike

我正在研究不同的相似度算法,这些算法定义了在搜索过程中如何计算每个文档的分数。此处列出了可用的算法:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/index-modules-similarity.html

我的问题是,在挖掘维基百科文章或 lucene API 文档中的类描述时,我无法理解它们。我真的很喜欢这里关于解释 TF/IDF 相似性算法(ElasticSearch 中的默认算法)的答案:What is the reasoning behind the ranking of this ElasticSearch query? (所以我对这个有一定的了解)。

有人可以为此处概述的其他算法提供类似的简单解释吗?这些包括:

  • bm25相似度
  • drf相似度
  • ib相似度

提前谢谢你。

最佳答案

您在这里遇到的问题是链接答案中的描述,Lucene 的默认相似性和 bm25 基本相同,因为它们都考虑了:

  • 文档中出现次数越多越好
  • 首选语料库中较稀有的术语
  • 较短的文档具有更高的权重
  • 用于调整分数、提升等的其他功能。

dfr 实际上仅包含 7 个不同的基础模型,每个模型使用不同的评分算法,然后是两个高度可配置的归一化步骤。许多配置选项适合上述非常一般的步骤,有些与它不同。

类似地,ib 也允许一些重要的配置,但通常会达到相同的高点,支持更高的术语频率,支持更罕见的术语匹配(根据某种描述),并调整用于文档长度、提升和其他可能的规范化。

关于algorithm - 不同ElasticSearch相似度算法的简单解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19423423/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com