gpt4 book ai didi

多标签分类中的性能评估

转载 作者:行者123 更新时间:2023-11-30 08:29:40 24 4
gpt4 key购买 nike

因此,我研究了准确性和 F1 测量,以评估多标签分类算法(每个实例与多个标签相关联)。拥有:

Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)

哪种方法更好,为什么?在什么情况下我应该选择其中一种而不是另一种?

最佳答案

通常,准确性更容易解释。但 F1 的信息更丰富。

这在很大程度上取决于您要解决的问题类型以及不同类的相对重要性。

例如。在 MNIST 数字分类的情况下,您可能期望类别是平衡的(每个类别的示例数量相等),准确度指标非常能代表性能。

但在另一种情况下,例如癌症测试,您可能会发现

  1. 最好找到所有癌症病例,即使需要更多未患有癌症的人参加测试(召回率高,但对患者来说昂贵)
  2. 类别之间存在很大的不平衡(例如 5% 的人患有癌症),因此您可以通过告诉没有人患有癌症来获得很高的准确性,但这根本没有帮助

在这种情况下,依靠 F1 分数并尝试平衡精确度和召回率比仅关注准确度更有意义。

所以这实际上取决于每个标签的相对重要性以及您想要优先考虑的内容。如果不考虑问题的实际范围,就什么也说不出来。

关于多标签分类中的性能评估,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20363680/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com