gpt4 book ai didi

python - NDCG(归一化贴现 yield )有缺陷吗?我已经计算了一些替代的排名质量衡量标准,但我无法确定它的正面或反面

转载 作者:太空狗 更新时间:2023-10-30 03:01:15 27 4
gpt4 key购买 nike

我正在使用 python 解决排序学习问题,我正在使用以下 DCG 和 NDCG 代码(来自 http://nbviewer.ipython.org/github/ogrisel/notebooks/blob/master/Learning%20to%20Rank.ipynb)评估我的成功

def dcg(relevances, rank=20):
relevances = np.asarray(relevances)[:rank]
n_relevances = len(relevances)
if n_relevances == 0:
return 0.
discounts = np.log2(np.arange(n_relevances) + 2)
return np.sum(relevances / discounts)

def ndcg(relevances, rank=20):
best_dcg = dcg(sorted(relevances, reverse=True), rank)
if best_dcg == 0:
return 0.
return dcg(relevances, rank) / best_dcg

这是 3 个项目列表中最好和最坏情况的 DCG 值,没有重复的排名...

>>> ndcg(np.asarray([3,2,1]))
1.0
>>> ndcg(np.asarray([1,2,3]))
0.78999800424603583

我们可以使用这个指标来比较两个排名,看看哪个更好。但是,如果我计算 4 项列表的最坏情况......

>>> ndcg(np.asarray([1,2,3,4]))
0.74890302967841715

4 项列表似乎不再与 3 项列表具有可比性。

我还计算了两个备选的 NDCG。 NDCG2 将实现的 dcg 与 bot 最好和最坏的情况进行比较...

def ndcg2(relevances, rank=20):
best_dcg = dcg(sorted(relevances, reverse=True), rank)
worst_dcg=dcg(sorted(relevances, reverse=False),rank)
if best_dcg == 0:
return 0.
return (dcg(relevances, rank)-worst_dcg) / (best_dcg-worst_dcg)

NDCG 将我的实际排名列表随机化 50 次,计算每次的 dcg,并将其与我的实际 DCG 进行比较。

def ndcg3(relevances, rank=20):
shuffled=np.copy(relevances)
rands=[]
for i in range(50):
np.random.shuffle(shuffled)
rands.append(dcg(shuffled,rank))
avg_rand_dcg=np.mean(np.asarray(rands))
return dcg(relevances, rank) / avg_rand_dcg

在我的各种列表中,我得到了以下指标......

  • NDCG:平均值为 0.87(听起来不错)
  • 长矛兵等级:大约 0.25(并不惊人,但有一些东西)
  • NDCG2:.58(平均而言,与最佳 dcg 的距离略高于最差)
  • NDCG3:1.04(略好于随机排序的列表)

老实说,我无法确定这些结果的正反面。我的 NDCG 值看起来不错,但它们真的可以跨列表进行比较吗?替代指标是否更有意义?

编辑:在我的第一次随机比较中,我没有使用 np.copy()。因此,我的随机分数几乎总是 0.99。现在这个问题已经解决,结果更有意义。

最佳答案

有人认为可能会误导你的是规范化NDCG的方法。通常,您有许多文档要排名,但您的 NDCG 被截断为较少数量的文档(例如 NCDG@3)。在您的代码中,这由参数“rank”决定。

假设您要对相关性 R = [1, 2, 3, 4, 0] 的 5 个文档进行排名,并计算 NDCG@3。如果您的算法认为最优顺序是 [doc1, doc2, doc3, doc4, doc5],那么您将有:

NDCG@3 = DCG([1, 2, 3]) / DCG([4, 3, 2])

不是

NDCG@3 = DGC([1, 2, 3]) / DCG([3, 2, 1])   # Incorrect

所以从某种意义上说,NDCG([1, 2, 3]) 和 NDCG([1, 2, 3, 4]) 没有可比性。分子完全一样,分母却完全不同。如果你想让NDCG有一个直观的含义,你必须设置“排名”小于或等于您的文档数量。

关于python - NDCG(归一化贴现 yield )有缺陷吗?我已经计算了一些替代的排名质量衡量标准,但我无法确定它的正面或反面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26148169/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com