- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 Weka 将文档分类为两个类别(类别 1 和类别 2)。
我收集了一个训练集,其中包含属于这两个类别的 600 个文档,要分类的文档总数为 1,000,000。
因此,为了执行分类,我应用了 StringToWordVector 过滤器。我将过滤器中的以下内容设置为 true:- IDF变换- TF 变换- 输出字数
我想问一些有关此过程的问题。
1)我应该使用多少文档作为训练集,以避免过度拟合?
2)应用过滤器后,我得到了训练集中的单词列表。我是否必须删除其中任何一个才能在分类器上获得更好的结果,否则它不会发挥任何作用?
3)作为分类方法,我通常选择naiveBayes,但我得到的结果如下:
-------------------------
Correctly Classified Instances 393 70.0535 %
Incorrectly Classified Instances 168 29.9465 %
Kappa statistic 0.415
Mean absolute error 0.2943
Root mean squared error 0.5117
Relative absolute error 60.9082 %
Root relative squared error 104.1148 %
----------------------------
如果我使用 SMO,结果是:
------------------------------
Correctly Classified Instances 418 74.5098 %
Incorrectly Classified Instances 143 25.4902 %
Kappa statistic 0.4742
Mean absolute error 0.2549
Root mean squared error 0.5049
Relative absolute error 52.7508 %
Root relative squared error 102.7203 %
Total Number of Instances 561
------------------------------
那么在文档分类中,哪一个是“更好”的分类器?哪一种更适合小数据集(例如我拥有的数据集)?我读到 naiveBayes 在大数据集上表现更好,但是如果我增加数据集,会导致“过度拟合”效应吗?另外,关于 Kappa 统计,是否有任何可接受的阈值,或者在这种情况下并不重要,因为只有两个类别?
很抱歉这篇文章很长,但我已经尝试了一周来改进分类结果,但没有成功,尽管我尝试获取更适合每个类别的文档。
最佳答案
1) How many documents shall I use as training set, so that I over-fitting is avoided? \
你不需要选择训练集的大小,在WEKA中,你只需使用10折交叉验证。回到问题,机器学习算法在过拟合问题中的影响远大于数据集。
<小时/>2) After applying the filter, I get a list of the words in the training set. Do I have to remove any of them to get a better result at the classifier or it doesn't play any role? \
确实如此。但结果是否会好转还不能保证。
<小时/>3) As classification method I usually choose naiveBayes but the results I get are the followings: \
通常,定义一个分类算法的好坏,ROC/AUC/F-measure值总是被认为是最重要的指标。您可以在任何机器学习书籍中学习它们。
关于statistics - 如何进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12542042/
我是一名优秀的程序员,十分优秀!