gpt4 book ai didi

machine-learning - NaiveBayes 分类器 : Do I have to concatenate all files of one class?

转载 作者:行者123 更新时间:2023-11-30 09:22:16 25 4
gpt4 key购买 nike

我正在实现一个简单的朴素贝叶斯分类器,但我不明白如何正确计算类条件概率 (P(d|c))。为了完整起见,我很快想解释一下所使用的术语。朴素贝叶斯概率的计算方式为:

enter image description here

c 表示任意类,而 d 是文档。令 x = {x1,x2,...,xn} 为 n 个特征的列表,例如50 个最常见的二元组)。

在我的训练集中,有 i 个类(由名为 c_i 的文件夹表示),每个类都有 k 个文档(由普通文本文件表示)。

先验概率 P(c) 可以轻松计算:

enter image description here

现在我想计算P(d|c)。这应该由

来完成

enter image description here

现在我不太明白如何计算 P(x_i|c)。我采用特征 x_i(假设二元组“th”),现在检查它在 c 类中出现的频率。但我该怎么做呢?每个类由 k 个文档表示。我必须连接所有这些文件吗?后来我当然必须除以“所有功能的总数”。这是所有(连接的)文档中二元词“th”的频率吗?

最佳答案

贝叶斯方法假设文档是一组独立地从某个概率分布中提取的单词。基于这种独立性假设,您确实可以连接一个类中的所有文档,并使用类文档并集的词频作为对类概率分布的估计。

关于machine-learning - NaiveBayes 分类器 : Do I have to concatenate all files of one class?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30832292/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com