gpt4 book ai didi

information-retrieval - IR评估中如何衡量ranking、AP、MAP、recall的一些想法和方向

转载 作者:行者123 更新时间:2023-12-02 15:15:43 25 4
gpt4 key购买 nike

我对如何评估信息检索结果的好坏有疑问,比如计算

相关文档rank, recall, precision ,AP, MAP.....

目前,一旦用户输入查询,系统就能够从数据库中检索文档。问题是不知道怎么评价。

我得到了一些公共(public)数据集,例如“Cranfield collection”dataset link它包含

1.文档 2.查询 3.相关性评估

             DOCS   QRYS   SIZE*
Cranfield 1,400 225 1.6

我可以知道如何使用“Cranfield collection”来计算评估吗相关文档rank, recall, precision ,AP, MAP.....

我可能需要一些想法和方向。不询问如何编写程序。

最佳答案

文档排名

Okapi BM25(BM 代表最佳匹配)是搜索引擎用来根据匹配文档与给定搜索查询的相关性对匹配文档进行排名的排名函数。它基于概率检索框架。 BM25 是 bag-of-words检索功能,它根据每个文档中出现的查询词对一组文档进行排名,而不管文档中查询词之间的相互关系(例如,它们的相对接近度)。查看Wikipedia页面了解更多详情。

准确率和召回率

“在我们检索到的所有相关文档中,有多少是真正相关的?”的精确度测量。

Precision = No. of relevant documents retrieved / No. of total documents retrieved

召回措施“在所有实际相关文档中,我们检索到多少是相关的?”。

Recall = No. of relevant documents retrieved / No. of total relevant documents

假设,当一个查询“q”被提交给一个信息检索系统(例如,搜索引擎)时,它有 100 个相关文档 w.r.t。查询“q”,系统从 600 份文档中检索出 68 份文档。在检索到的 68 份文件中,有 40 份文件是相关的。所以,在这种情况下:

Precision = 40/68 = 58.8%Recall = 40/100 = 40%

F-Score/F-measure 是准确率和召回率的加权调和平均值。传统的 F-measure 或平衡 F-score 是:

F-Score = 2 * Precision * Recall / Precision + Recall

平均精度

您可以这样想:您在 Google 中输入内容,它会显示 10 个结果。如果所有这些都是相关的,那可能是最好的。如果只有一些是相关的,比如其中五个,那么最好首先显示相关的。如果前五名无关紧要而好的只从第六名开始,那就太糟糕了,不是吗? AP 分数反射(reflect)了这一点。

举个例子:

enter image description here

AvgPrec of the two rankings:

排名#1:(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6)/6 = 0.78

排名 #2:(0.5 + 0.4 + 0.5 + 0.57 + 0.56 + 0.6)/6 = 0.52

平均精度 (MAP)

MAP 是跨多个查询/排名的平均精度的平均值。举例说明。

enter image description here

Mean average precision for the two queries:

对于查询 1,AvgPrec: (1.0+0.67+0.5+0.44+0.5)/5 = 0.62

对于查询 2,AvgPrec: (0.5+0.4+0.43)/3 = 0.44

因此,MAP = (0.62 + 0.44)/2 = 0.53

有时,人们使用precision@krecall@k 作为检索系统的性能度量。您应该为此类测试构建一个检索系统。如果你想用 Java 编写程序,你应该考虑 Apache Lucene建立您的索引。

关于information-retrieval - IR评估中如何衡量ranking、AP、MAP、recall的一些想法和方向,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40801196/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com