gpt4 book ai didi

algorithm - 朴素贝叶斯分类的简单解释

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:10:59 26 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

6 个月前关闭。



Improve this question




我发现很难理解朴素贝叶斯的过程,我想知道是否有人可以用英语用一个简单的分步过程来解释它。我知道它需要按发生的时间进行比较作为概率,但我不知道训练数据与实际数据集是如何相关的。

请给我解释一下训练集所起的作用。我在这里举了一个非常简单的水果例子,例如香蕉

training set---
round-red
round-orange
oblong-yellow
round-red

dataset----
round-red
round-orange
round-red
round-orange
oblong-yellow
round-red
round-orange
oblong-yellow
oblong-yellow
round-red

最佳答案

据我了解,您的问题分为两部分,第一部分是您需要更好地理解朴素贝叶斯分类器,第二部分是围绕训练集的困惑。

一般来说,所有机器学习算法都需要针对分类、预测等监督学习任务或聚类等无监督学习任务进行训练。

在训练步骤中,算法使用特定的输入数据集(训练集)进行教授,以便稍后我们可以测试它们是否存在未知输入(它们以前从未见过),它们可以对其进行分类或预测等(在有监督的情况下)学习)基于他们的学习。这是大多数机器学习技术(如神经网络、SVM、贝叶斯等)的基础。

因此,在一般的机器学习项目中,基本上您必须将输入集划分为开发集(训练集 + 开发测试集)和测试集(或评估集)。请记住,您的基本目标是您的系统学习和分类他们以前从未在开发集或测试集中见过的新输入。

测试集通常与训练集具有相同的格式。然而,测试集与训练语料库不同是非常重要的:如果我们只是
重用训练集作为测试集,那么一个简单地记住其输入而不学习如何推广到新示例的模型将获得误导性的高分。

一般来说,例如,我们 70% 的数据可以用作训练集案例。还要记住将原始集随机划分为训练集和测试集。

现在我来回答你关于朴素贝叶斯的另一个问题。

为了演示朴素贝叶斯分类的概念,请考虑下面给出的示例:

enter image description here

如上所述,对象可以分类为 GREENRED .我们的任务是在新案例到达时对其进行分类,即根据当前存在的对象决定它们属于哪个类标签。

由于GREEN的数量是原来的两倍对象为 RED ,有理由相信一个新案例(尚未观察到)拥有成员资格的可能性是其他人的两倍 GREEN而不是 RED .在贝叶斯分析中,这种信念被称为先验概率。先验概率基于以前的经验,在这种情况下是 GREEN 的百分比。和 RED对象,通常用于在结果实际发生之前预测结果。

因此,我们可以写:

GREEN 的先验概率 :number of GREEN objects / total number of objects
RED 的先验概率 :number of RED objects / total number of objects
由于一共有60对象,40其中是GREEN和 20 RED ,我们的类成员资格的先验概率是:

GREEN 的先验概率 :40 / 60
RED 的先验概率 :20 / 60
制定我们的先验概率后,我们现在准备对新对象进行分类(下图中的 WHITE 圆圈)。由于对象聚类良好,因此可以合理地假设 GREEN 越多 | (或 RED )X 附近的对象,新案例属于该特定颜色的可能性越大。为了衡量这种可能性,我们在 X 周围画了一个圆圈,其中包含许多(先验选择)点,而不管它们的类别标签如何。然后我们计算属于每个类标签的圆中的点数。由此我们计算似然:

enter image description here

enter image description here

从上图可以清楚地看出 X 的可能性给定 GREEN小于 X 的可能性给定 RED ,因为圆圈包含 1 GREEN对象和 3 RED那些。因此:

enter image description here

enter image description here

尽管先验概率表明 X可能属于 GREEN (假设 GREENRED 相比是两倍)可能性表示相反;类(class)成员(member)XRED (假设 RED 附近的物体 XGREEN 多)。在贝叶斯分析中,最终的分类是通过结合两个信息源,即先验和似然,使用所谓的贝叶斯规则(以 Rev. Thomas Bayes 1702-1761 命名)形成后验概率来产生的。

enter image description here

最后,我们将 X 分类为 RED因为它的类成员达到了最大的后验概率。

关于algorithm - 朴素贝叶斯分类的简单解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10059594/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com