gpt4 book ai didi

machine-learning - 提高朴素贝叶斯分类器准确性的方法?

转载 作者:行者123 更新时间:2023-11-30 08:19:55 26 4
gpt4 key购买 nike

我正在使用朴素贝叶斯分类器将数千个文档分为 30 个不同的类别。我已经实现了朴素贝叶斯分类器,并通过一些特征选择(主要是过滤无用的单词),我获得了大约 30% 的测试准确率,以及 45% 的训练准确率。这比随机要好得多,但我希望它更好。

我尝试过使用 NB 实现 AdaBoost,但它似乎并没有给出明显更好的结果(文献对此似乎存在分歧,一些论文说使用 NB 的 AdaBoost 并没有给出更好的结果,其他论文却给出了更好的结果)。您是否知道 NB 的任何其他扩展可能会提供更高的准确性?

最佳答案

根据我的经验,经过适当训练的朴素贝叶斯分类器通常非常准确(并且训练速度非常快 - 明显比我曾经使用过的任何分类器构建器都要快)。

因此,当您想要改进分类器预测时,您可以在几个地方查看:

  • 调整分类器(调整分类器的可调参数);

  • 应用某种分类器组合技术(例如,集成、提升、装袋);或者你也可以

  • 查看输入到分类器的数据 - 添加更多数据,改进您的基本解析,或细化您选择的功能数据。

w/r/t朴素贝叶斯分类器,参数调整有限;我建议关注您的数据,即预处理和特征选择的质量。

我。数据解析(预处理)

我假设您的原始数据类似于每个数据点的原始文本字符串,通过一系列处理步骤,您可以将每个字符串转换为每个数据点的结构化向量(一维数组),使得每个偏移量对应于一个特征(通常是一个单词)和该偏移量中的值对应于频率。

  • 词干提取:手动还是使用词干提取库?流行的开源有 Porter、Lancaster 和 Snowball。因此对于例如,如果您有术语“程序员”、“程序”、“编程”,在给定的数据点中编程,词干分析器会将它们减少到单词干(可能程序),所以你的数据的术语向量对于特征程序,点的值为 4,即可能是您想要的。

  • 同义词查找:与词干提取相同的想法——将相关单词折叠成单个单词;因此同义词查找器可以识别开发人员、程序员、编码员和软件工程师,并将它们合并为一个术语

  • 中性词:不同类别出现频率相似的词的特征较差


二.特征选择

考虑 NBC 的一个典型用例:过滤垃圾邮件;您可以很快看到它是如何失败的,也可以很快看到如何改进它。例如,高于平均水平的垃圾邮件过滤器具有细微差别的特征,例如:全部大写的单词频率、标题中单词的频率以及标题中感叹号的出现频率。此外,最好的特征通常不是单个单词,而是单词对或更大的单词组

三.具体分类器优化

使用“一对多”方案而不是 30 个类 - 换句话说,您从两类分类器(A 类和“所有其他”)开始,然后是结果“所有其他”类别中的内容返回到算法以分类为 B 类和“所有其他”等。

费舍尔方法(可能是优化朴素贝叶斯分类器的最常见方法。)对我来说,我认为 Fisher 对输入概率进行标准化(更准确地说,标准化) NBC 使用特征概率来构建“整个文档”概率。 Fisher 方法计算文档的每个特征的类别概率,然后组合这些特征概率,并将组合概率与随机特征集的概率进行比较。

关于machine-learning - 提高朴素贝叶斯分类器准确性的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3473612/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com