gpt4 book ai didi

machine-learning - 文本分类中的词干提取 - 降低准确性?

转载 作者:行者123 更新时间:2023-11-30 08:55:33 24 4
gpt4 key购买 nike

我正在使用 Mahout 实现一个文本分类系统。我读过停用词删除和词干提取有助于提高文本分类的准确性。就我而言,删除停用词可以提高准确性,但词干提取并没有多大帮助。我发现应用词干分析器后准确率下降了 3-5%。我尝试使用波特词干和 k-词干,但在这两种情况下都得到几乎相同的结果。

我正在使用朴素贝叶斯算法进行分类。

提前非常感谢任何帮助。

最佳答案

首先,您需要了解为什么词干通常可以提高准确性。想象一下训练集中的以下句子:

He played below-average football in 2013, but was viewed as an ascending player before that and can play guard or center.

以及测试集中的以下内容:

We’re looking at a number of players, including Mark

第一句包含许多与体育相关的单词,包括单词“运动员”。测试集中的第二句话也提到了玩家,但是,哦,它是复数形式 - “玩家”,而不是“玩家” - 所以对于分类器来说,它是一个独特的、不相关的变量。

词干尝试截取单词的确切形式等细节,并生成单词库作为分类特征。在上面的示例中,词干提取可以将两个单词缩短为“player”(甚至“play”)并将它们用作相同的特征,从而有更多机会将第二个句子分类为属于“sports”类别。

然而,有时这些细节本身就发挥着重要作用。例如,短语“今天运行”可能指运行者,而“长时间运行”可能指手机电池生命周期。在这种情况下,词干提取会使分类变得更糟,而不是更好。

您在这里可以做的是使用附加功能来帮助区分相同单词/词干的不同含义。两种流行的方法是 n-grams (例如二元组,由单词对而不是单个单词组成的特征)和 part-of-speech (POS) 标签。您可以尝试它们的任意组合,例如词干 + 词干的双字母组,或单词 + 单词的双字母组,或词干 + POS 标签,或词干、双字母组和 POS 标签等。

此外,尝试其他算法。例如。 SVM使用与朴素贝叶斯非常不同的方法,因此它可以捕获 NB 忽略的数据中的内容。

关于machine-learning - 文本分类中的词干提取 - 降低准确性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22603332/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com