gpt4 book ai didi

information-retrieval - 当检索的文档少于 k 个时,精度为 k

转载 作者:行者123 更新时间:2023-12-04 00:17:45 27 4
gpt4 key购买 nike

在信息检索评估中,如果检索到的文档少于 k 个,那么 precision@k 会是多少?假设只检索了 5 个文档,其中 3 个是相关的。 precision@10 是 3/10 还是 3/5?

最佳答案

很难找到定义此类度量边缘情况的文本,而且数学公式通常不处理数据的不完整性。对于这样的问题,我倾向于求助于 trec_eval 做出的决定。这是 NIST 分发的一种工具,它实现了所有常见的检索措施,尤其是文本检索 session (TREC 挑战)中的挑战所使用的那些措施。

根据 m_P.c 中的指标描述的 trec_eval 9.0 (在此页面上称为最新):

Precision measured at various doc level cutoffs in the ranking.
If the cutoff is larger than the number of docs retrieved, then
it is assumed nonrelevant docs fill in the rest. Eg, if a method
retrieves 15 docs of which 4 are relevant, then P20 is 0.2 (4/20).
Precision is a very nice user oriented measure, and a good comparison
number for a single topic, but it does not average well. For example,
P20 has very different expected characteristics if there 300
total relevant docs for a topic as opposed to 10.

这意味着你应该总是除以 k即使少于 k已检索,因此在您的特定情况下,精度将为 0.3 而不是 0.6。 (惩罚系统检索少于 k )。

另一个棘手的情况是少于 k相关文件。这就是为什么他们指出精度是一个有用的衡量标准,但不能很好地平均。

对这些问题更稳健的一些措施是:归一化折扣累积增益 (NDCG),将排名与理想排名(在截止点)和(更简单的)R 精度进行比较:计算相关文档数量的精度,而不是比固定 k .因此,一个查询可能会为 R=15 计算 P@15,而另一个可能会为 R=200 计算 P@200。

关于information-retrieval - 当检索的文档少于 k 个时,精度为 k,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46374405/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com