gpt4 book ai didi

machine-learning - 朴素贝叶斯分类器 : output percentage is too low

转载 作者:行者123 更新时间:2023-11-30 09:27:15 28 4
gpt4 key购买 nike

我正在为一个类(class)项目编写一个朴素贝叶斯分类器,我刚刚让它工作......有点。虽然我确实得到了无错误的输出,但获胜的输出标签的输出概率为 3.89*10^-85

哇。

对于我可能做错的事情,我有一些想法。首先,我没有标准化各类别的输出百分比,因此所有百分比实际上为零。虽然这会给我看起来不错的数字,但我不知道这是否是正确的做法。

我的第二个想法是减少功能数量。我们的输入数据是一个非常长的文本文件形式的伪图像列表。目前,我们的特征只是图像每个像素的二进制值,对于 28x28 的图像来说,有很多特征。如果我将图像切成一定大小的 block ,例如 7x7,那么实际上会提高输出百分比多少?

tl;dr以下是我试图了解的有关朴素贝叶斯的一般内容:

1)您是否需要标准化每个类测试的输出百分比?

2)太多的特征对结果有多大影响?

预先感谢您能给我的任何帮助。

最佳答案

这可能是正常的。朴素贝叶斯的输出并不意味着是真实的概率。它的目的是在竞争类(class)之间排序分数。

概率如此低的原因是许多朴素贝叶斯实现是正在分类的实例的所有观察到的特征的概率的乘积。如果您要对文本进行分类,则每个特征对于每个类别的条件概率可能较低(例如:低于 0.01)。如果将特征概率乘以 1000 个,您很快就会得到如您报告的那样的数字。

此外,返回的概率不是给定实例的每个类的概率,而是给定类的情况下观察这组特征的概率的估计。因此,你拥有的特征越多,观察到这些确切特征的可能性就越小。使用贝叶斯定理将 argmax_c P(class_c|features) 更改为 argmax_c P(class_c)*P(features|class_c),然后将 P( features|class_c) 通过独立性假设进一步简化,这允许将其更改为观察给定类的每个单独特征的概率的乘积。这些假设不会改变 argmax(获胜类别)。

如果我是你,我不会真正关心概率输出,而是关注分类器的准确性并采取措施提高准确性,而不是计算的概率。

关于machine-learning - 朴素贝叶斯分类器 : output percentage is too low,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41194991/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com