gpt4 book ai didi

python - 类子集的 scikit-learn 指标

转载 作者:行者123 更新时间:2023-11-30 09:29:54 26 4
gpt4 key购买 nike

我们正在使用 scikit-learn==0.15.2 并在 9 个类和一个特殊的“其他”类上训练 LinearSVC。 “其他”类包含数据集中不属于我们尝试分类的 9 个重要类的任何内容。

我们希望仅获得 9 个类别的平均微观/宏观精度/召回率/f1 指标,而不包括“其他”类别,以便对我们的分类器进行性能估计。

我们未能在内置 scikit metrics 函数中找到对此的任何支持。即使是 classification_report 函数在尝试将标签限制为仅 9 ( https://github.com/scikit-learn/scikit-learn/issues/3123 ) 时也会出现问题。

缺乏支持是否表明我们的基本方法不正确?当我们衡量绩效时,我们应该包括“其他”吗?

编辑:请注意,我们的消费者仅在我们预测 9 个类别之一时才使用我们的预测。如果我们预测“其他”,我们的输出将被丢弃并使用另一个模型。

最佳答案

简而言之是的,您应该包含每个类。为什么你会忽略(可能是最大的)类(class)?即使它只是噪声,实际上能够将噪声与重要类别区分开来也是分类器性能的基础。在某些情况下,您可能对“其他”类不感兴趣(在误报不相关的情况下),但这些情况非常罕见,因此不会直接在 scikit-learn 的指标模块中实现。

关于python - 类子集的 scikit-learn 指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27784338/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com