gpt4 book ai didi

java - 全局多标签性能评估的平均 Precision/Recall 是否正确?

转载 作者:行者123 更新时间:2023-11-30 09:14:22 27 4
gpt4 key购买 nike

让我们谈谈标签 A、B 和 C 的多标签分类问题。我可以计算每个标签的准确率/召回率,如下所示:

  • 精度:正确的 NodeX 分配/总 NodeX 分配
  • 记忆:正确的 NodeX 分配/NodeX 真实出现的总数
  • F1 度量:2 *(准确率 * 召回率)/(准确率 + 召回率)

因为我有 3 个标签,所以我想通过平均每个单个节点的值来获得全局性能度量,如建议的 here .

但是,我注意到这打破了 F1 测量不变性!举例说明:

Label, Precision, Recall, F1
A, 0.5, 1.0, 0.666
B, 1.0, 1.0, 1.0
C, 0.5, 0.5, 0.5
AVG, 0.666, 0.833, 0.611

NOTE: (2 * (0.666 * 0.833) / (0.666 + 0.833)) != 0.611

尝试为多标签分类性能测量提出基于全局节点的指标是否正确?有更好的方法吗?

注意:我知道其他性能指标(准确性、ROC/AUC 等),但我也想解决这个问题。

最佳答案

F1 平均值假设准确率和召回率具有相同的权重。但这在现实中是不正确的。使用平均精度和召回率来计算 F1 分数更有意义,因为这将更好地反射(reflect)您对精度或召回率的偏好。检查这个article了解更多详情。

关于java - 全局多标签性能评估的平均 Precision/Recall 是否正确?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20556990/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com