gpt4 book ai didi

machine-learning - 对具有不同类别比例的多个类别进行错误分类

转载 作者:行者123 更新时间:2023-11-30 09:29:57 25 4
gpt4 key购买 nike

我鼓励解决下一个问题:我正在尝试对大量文本文档进行分类。

共有 20 个类别:1 个正常类别,19 个 - 异常类别。当我使用朴素贝叶斯分类时,我得到以下结果:分类对于 19 个类别效果良好,但对于“正常”类别,我遇到了许多错误分类错误:“正常”类别中的几乎所有情况都被归类为其他(非正常)类别。

我有一些问题:

  • 我应该如何为“普通”类(class)选择训练集? (现在,我刚好适合到“正常”类别的文本分类器集,1/20比例)。
  • 分类器可以这样指定吗:如果属于的概率某个类小于某个阈值,则必须设置分类器
    该样本的类别(例如正常)?

最佳答案

很可能每个类的实例数量不平衡导致了该问题。您需要在最终类估计上定义某种先验,以避免实例不平衡的问题,并且您需要通过交叉验证来微调此先验的外生参数。我猜狄利克雷先验用于多项式 NB。

关于machine-learning - 对具有不同类别比例的多个类别进行错误分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24382672/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com