gpt4 book ai didi

machine-learning - 朴素贝叶斯,不那么朴素吗?

转载 作者:行者123 更新时间:2023-11-30 09:13:35 24 4
gpt4 key购买 nike

我有一个朴素贝叶斯分类器(使用 WEKA 实现),用于查找大写字母。

contains_A
contains_B
...
contains_Z

对于某个类别,LCD 一词几乎出现在训练数据的每个实例中。当我得到“LCD”属于该类别的概率时,它大约是 0.988。获胜。

当我得到“L”的概率时,我得到一个普通的 0,而对于“LC”,我得到 0.002。既然特征是幼稚的,那么 L、C 和 D 不应该独立地对整体概率做出贡献吗?因此“L”有一定的概率,“LC”有更多概率,“LCD”甚至更多?

同时,使用 MLP 进行相同的实验,但没有出现上述行为,而是给出了 0.006、0.5 和 0.8 的百分比

所以 MLP 做了我期望朴素贝叶斯做的事情,反之亦然。我错过了什么吗?有人可以解释这些结果吗?

最佳答案

我不熟悉WEKA的内部结构 - 所以如果您认为我不对,请纠正我。

当使用文本作为“特征”时,该文本将转换为二进制值向量。每个值对应一个具体的单词。向量的长度等于字典的大小。

如果你的字典包含 4 个世界:LCD、VHS、HELLO、WORLD那么例如文本 HELLO LCD 将转换为 [1,0,1,0]。

我不知道 WEKA 如何构建它的字典,但我认为它可能会涵盖示例中出现的所有单词。除非“L”出现在字典中(因此出现在示例中),否则它的概率在逻辑上为 0。实际上,它甚至不应该被视为一个特征。

实际上你无法推理特征的概率 - 并且你无法将它们加在一起,我认为特征之间不存在这种关系。

关于machine-learning - 朴素贝叶斯,不那么朴素吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13818278/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com