machine-learning - 解释朴素贝叶斯结果-6ren

machine-learning - 解释朴素贝叶斯结果

转载作者：行者123 更新时间：2023-11-30 08:27:49

我开始使用NaiveBayes/Simple分类器进行分类(Weka)，但是在训练数据时我有一些问题需要理解。我使用的数据集是weather.nominal.arff。

alt text

当我使用选项中的训练测试时，分类器结果是:

Correctly Classified Instances 13  -  92.8571 %    
Incorrectly Classified Instances 1 - 7.1429 %   

a b classified as  
9 0  a =yes
1 4  b = no

我的第一个问题我应该从错误的分类实例中理解什么？为什么会出现这样的问题呢？哪个属性集合分类错误？有没有办法理解这一点？

其次，当我尝试 10 折交叉验证时，为什么我会得到不同(较少)正确分类的实例？

结果是:

Correctly Classified Instances           8               57.1429 %
Incorrectly Classified Instances         6               42.8571 %

 a b   <-- classified as
 7 2 | a = yes
 4 1 | b = no

最佳答案

您可以通过从以下位置选择此选项来获取每个实例的单独预测:

More Options... > Output predictions > PlainText

除了评估指标之外，还会为您提供以下内容:

=== Predictions on training set ===

 inst#     actual  predicted error prediction
     1       2:no       2:no       0.704 
     2       2:no       2:no       0.847 
     3      1:yes      1:yes       0.737 
     4      1:yes      1:yes       0.554 
     5      1:yes      1:yes       0.867 
     6       2:no      1:yes   +   0.737 
     7      1:yes      1:yes       0.913 
     8       2:no       2:no       0.588 
     9      1:yes      1:yes       0.786 
    10      1:yes      1:yes       0.845 
    11      1:yes      1:yes       0.568 
    12      1:yes      1:yes       0.667 
    13      1:yes      1:yes       0.925 
    14       2:no       2:no       0.652

这表明第 6 个实例被错误分类。请注意，即使您在相同的实例上进行训练和测试，由于数据不一致，也可能会发生错误分类(最简单的示例是两个实例具有相同的功能但具有不同的类标签)。

请记住，上述测试方式是有偏见的(它有点作弊，因为它可以看到问题的答案)。因此，我们通常感兴趣的是对未见数据的模型误差进行更现实的估计。 Cross-validation就是一种这样的技术，它将数据划分为 10 个分层折叠，对其中一个折叠执行测试，同时对其他 9 个折叠进行训练，最后报告十次运行的平均准确度。

关于machine-learning - 解释朴素贝叶斯结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3648917/