作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我开始使用NaiveBayes/Simple分类器进行分类(Weka),但是在训练数据时我有一些问题需要理解。我使用的数据集是weather.nominal.arff。
当我使用选项中的训练测试时,分类器结果是:
Correctly Classified Instances 13 - 92.8571 %
Incorrectly Classified Instances 1 - 7.1429 %
a b classified as
9 0 a =yes
1 4 b = no
我的第一个问题我应该从错误的分类实例中理解什么?为什么会出现这样的问题呢?哪个属性集合分类错误?有没有办法理解这一点?
其次,当我尝试 10 折交叉验证时,为什么我会得到不同(较少)正确分类的实例?
结果是:
Correctly Classified Instances 8 57.1429 %
Incorrectly Classified Instances 6 42.8571 %
a b <-- classified as
7 2 | a = yes
4 1 | b = no
最佳答案
您可以通过从以下位置选择此选项来获取每个实例的单独预测:
More Options... > Output predictions > PlainText
除了评估指标之外,还会为您提供以下内容:
=== Predictions on training set ===
inst# actual predicted error prediction
1 2:no 2:no 0.704
2 2:no 2:no 0.847
3 1:yes 1:yes 0.737
4 1:yes 1:yes 0.554
5 1:yes 1:yes 0.867
6 2:no 1:yes + 0.737
7 1:yes 1:yes 0.913
8 2:no 2:no 0.588
9 1:yes 1:yes 0.786
10 1:yes 1:yes 0.845
11 1:yes 1:yes 0.568
12 1:yes 1:yes 0.667
13 1:yes 1:yes 0.925
14 2:no 2:no 0.652
这表明第 6 个实例被错误分类。请注意,即使您在相同的实例上进行训练和测试,由于数据不一致,也可能会发生错误分类(最简单的示例是两个实例具有相同的功能但具有不同的类标签)。
请记住,上述测试方式是有偏见的(它有点作弊,因为它可以看到问题的答案)。因此,我们通常感兴趣的是对未见数据的模型误差进行更现实的估计。 Cross-validation就是一种这样的技术,它将数据划分为 10 个分层折叠,对其中一个折叠执行测试,同时对其他 9 个折叠进行训练,最后报告十次运行的平均准确度。
关于machine-learning - 解释朴素贝叶斯结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3648917/
我是一名优秀的程序员,十分优秀!