gpt4 book ai didi

machine-learning - 使用朴素贝叶斯进行文本分类

转载 作者:行者123 更新时间:2023-11-30 08:33:06 25 4
gpt4 key购买 nike

我正在使用朴素贝叶斯解决文本分类机器学习问题。我把每个词当作一个特征。我已经能够实现它并且获得了很好的准确性。

我可以使用单词元组作为特征吗?

例如,如果有两个类(class):政治和体育。政府这个词可能出现在他们两个身上。然而,在政治中我可以有一个元组(政府,民主),而在体育类中我可以有一个元组(政府,运动员)。因此,如果出现一篇关于政治的新文本文章,则元组(政府、民主)的概率比元组(政府、运动员)的概率更大。

我问这个是因为这样做我违反了朴素贝叶斯问题的独立性假设,因为我也将单个单词视为特征。

此外,我正在考虑为特征添加权重。例如,3 元组特征的权重小于 4 元组特征的权重。

理论上,这两种方法不会改变朴素贝叶斯分类器的独立性假设吗?另外,我还没有开始使用我提到的方法,但这会提高准确性吗?我认为准确率可能不会提高,但获得相同准确率所需的训练数据量会更少。

最佳答案

即使不添加二元组,真实文档也已经违反了独立性假设。以奥巴马出现在文件中为条件,总统出现的可能性要大得多。尽管如此,朴素贝叶斯在分类方面仍然做得不错,即使它给出的概率估计完全错误。因此,我建议您继续向分类器添加更复杂的特征,看看它们是否可以提高准确性。

如果用更少的数据获得相同的准确度,这基本上相当于用相同数量的数据获得更好的准确度。

另一方面,随着数据量的减少,使用更简单、更常见的功能效果会更好。如果您尝试将太多参数拟合到太少数据中,则往往会严重过度拟合。

但最重要的是尝试一下。

关于machine-learning - 使用朴素贝叶斯进行文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8319677/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com