gpt4 book ai didi

information-retrieval - Okapi BM25 中的平均文档长度

转载 作者:行者123 更新时间:2023-12-04 11:52:24 25 4
gpt4 key购买 nike

我正在研究 Okapi BMS25 模型。我明白一切,但两个困惑。同时计算文档长度(dl)和平均文档长度(avdl)。我发现文档长度是

enter image description here

所以它是我在特定文档中的关键字/术语的总和。但是当我看到维基的定义时:

enter image description here

所以|D|是以字为单位的文档 D 的长度(即总字数的总和)。
现在,问题是 dl 实际上是什么?

现在,第二个问题如何计算avdl? (只是计算 (doc1+doc2+...N)/N 其中 N 是我在集合中没有文档的总数?(并且 avdl 是针对整个集合固定的?)

最佳答案

根据 Joaquín Pérez-Iglesias 在 Integrating the Probabilistic Model BM25/BM25F into Lucene ,得分函数 R 应定义如下:

enter image description here


  • occurs_t^dt 的词频在 d ,
  • l_d是文档d长度。
  • avl_d是沿集合的文档平均长度
  • k_1是一个自由参数,通常为 2 和 b在 [0,1] 中(通常为 0.75)。

  • 将 0 分配给 b相当于避免了归一化的过程,因此文档长度不会影响最终分数。

    b取 1,我们将进行全长归一化。

    enter image description here

    哪里 N是集合中的文档数和 df是出现术语 t 的文档数.

    关于information-retrieval - Okapi BM25 中的平均文档长度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23161677/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com