作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个用例,其中文本需要分为三个类别之一。我从朴素贝叶斯 [Apache OpenNLP,Java] 开始,但我被告知该算法有偏差,这意味着如果我的训练数据有 60% 的数据为 A 类,30% 为 B 类,10% 为 C 类,那么该算法往往会偏向于A 类,从而预测其他类文本为 A 类。
如果这是真的,有办法解决这个问题吗?
我遇到过其他算法,例如 SVM 分类器或逻辑回归(最大熵模型),但我不确定哪个更适合我的用例。请指教。
最佳答案
there a way to overcome this issue?
是的,有。但首先您需要了解为什么会发生这种情况?
基本上您的数据集是不平衡的。
不平衡的数据集意味着两个类中的一个类的实例高于另一个类,换句话说,分类数据集中所有类的观察数量并不相同。
在这种情况下,您的模型会偏向具有大多数样本的类别,因为您拥有该类别的更多训练数据。
解决方案
F1-score
、“召回率或
精度”来衡量模型的性能。还有更多解决方案,如果您想了解更多,请参阅此 blog
There are other algorithm that i came across like SVM Classifier or logistic regression (maximum entropy model), however I am not sure which will be more suitable for my usecase
除非您尝试,否则您永远不会知道,我建议您对数据尝试 3-4 种不同的算法。
关于machine-learning - 朴素贝叶斯有偏见吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56071840/
我是一名优秀的程序员,十分优秀!