gpt4 book ai didi

machine-learning - 如何在垃圾邮件过滤中嵌入朴素贝叶斯分类器的关联规则?

转载 作者:行者123 更新时间:2023-11-30 09:20:16 31 4
gpt4 key购买 nike

实际上,我正在研究用于过滤邮件的朴素贝叶斯分类器。我在SPAM检测中达到了95%的准确率,在HAM检测中达到了94%的准确率,但我相信通过关联规则挖掘可以进一步提高它。我正在计算训练数据集中邮件中单词的可能性和先验概率,并将测试邮件映射到 SPAM 或 HAM 类,如下所示,

formula

哪里,

p(d/c) denotes probability of document d being in class c.

p(c) denotes probability of particular class(SPAM or HAM in my case).

p(f1,f2,f3...fn/c) denotes likelihood of words f1,f2...fn being in class c.

但是在得出等式时。 2.7,我们假设词袋假设和条件独立性,这近似于准确性(这是为了简单起见而假设的)。
例如lottery 一词在垃圾邮件中出现lucky 一词的可能性应大于出现my_name(mahesh) 一词的垃圾邮件邮件中的可能性。因此,单词的存在及其位置确实会影响概率。

因此应该有一些符合朴素贝叶斯的关联模型来进一步提高准确性。

最佳答案

如果我可以这样重新表述你的问题:

“放宽朴素贝叶斯的条件独立性假设会提高分类器的性能吗?”

那么答案是一个令人惊讶且违反直觉的“不”。

一般来说,朴素贝叶斯分类器在特征之间施加严格的类条件独立性,将提供比更通用的贝叶斯网络相同或更好的性能,后者允许更丰富的依赖关系(并且依赖结构甚至可以从数据中学习) ,尽管通常不完全是)。

原因是,虽然朴素贝叶斯通常会得到错误的概率,但它通常会得到正确的决策边界[1]。

所以:你最好只做出词袋假设。

[1] http://web.cs.ucdavis.edu/~vemuri/classes/ecs271/Bayesian.pdf

关于machine-learning - 如何在垃圾邮件过滤中嵌入朴素贝叶斯分类器的关联规则?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42224735/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com