作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在处理数千份需要分为 5 类的文件。我正在为此使用朴素贝叶斯分类器。当我在一些样本邮件上测试它时它工作正常但是当我实际将它应用到原始数据集时计算变得非常复杂因为有更多的特征。在某一时刻,这些值非常小,几乎为零。所以我的问题是如何避免这个获取非常小的值的问题以及如何改进特征选择?
最佳答案
我们还观察到,朴素贝叶斯在使用大量特征时往往会给出较差的概率估计。所以特征选择在这里确实是个好主意。此外,研究特征选择总是一个好主意,尤其是当你的特征集非常大的时候。如果做得对,它可以提高学习模型的泛化能力。
朴素贝叶斯的特征选择有多种方式:
显然,还有更多方法可以执行特征选择,例如使用朴素贝叶斯分类器来评估不同的特征集。然而,在大规模数据集的背景下,我们发现这些方法太慢了。
Weka ML 库中提供了上述所有方法。还请确保当您选择功能时,您仅通过考虑您的训练数据来做到这一点。您永远不应使用部分测试数据来进行特征选择。
关于java - 如何改进朴素贝叶斯的特征选择?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20600388/
我是一名优秀的程序员,十分优秀!