gpt4 book ai didi

scala - Spark (Scala) 中的排名指标

转载 作者:行者123 更新时间:2023-11-30 09:21:13 25 4
gpt4 key购买 nike

我正在尝试使用spark RankingMetrics.meanAveragePrecision。然而,它似乎没有按预期工作。

val t2 = (Array(0,0,0,0,1), Array(1,1,1,1,1))
val r = sc.parallelize(Seq(t2))
val rm = new RankingMetrics[Int](r)
rm.meanAveragePrecision // Double = 0.2
rm.precisionAt(5) // Double = 0.2

t2 是一个元组,其中左侧数组表示实际值,右侧数组表示预测值(1 - 相关文档,0 - 不相关)

如果我们计算 t2 的平均精度,我们会得到:(0/1 + 0/2 + 0/3 + 0/4 + 1/5 )/5 = 1/25但是 RankingMetric 对于 MeanAveragePrecision 返回 0.2,它应该是 1/25。

谢谢。

最佳答案

我认为问题出在你的输入数据上。由于您的预测/实际数据包含相关性分数,我认为您应该查看 binary classification metrics如果您想使用 0/1 分数进行评估,而不是对指标进行排名。

RankingMetrics 需要两个排名项目的列表/数组,因此如果您用文档 ID 替换分数,它应该按预期工作。下面是 PySpark 中的一个示例,其中两个列表仅匹配第 5 个项目:

from pyspark.mllib.evaluation import RankingMetrics

rdd = sc.parallelize([(['a','b','c','d','z'], ['e','f','g','h','z'])])
metrics = RankingMetrics(rdd)

for i in range(1, 6):
print i, metrics.precisionAt(i)
print 'meanAveragePrecision', metrics.meanAveragePrecision
print 'Mean precisionAt', sum([0, 0, 0, 0, 0.2]) / 5

生产:

1 0.0
2 0.0
3 0.0
4 0.0
5 0.2
meanAveragePrecision 0.04
Mean precisionAt 0.04

关于scala - Spark (Scala) 中的排名指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37975715/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com