gpt4 book ai didi

machine-learning - scikit learn 对停用词进行分类

转载 作者:行者123 更新时间:2023-11-30 09:38:00 33 4
gpt4 key购买 nike

这是一个示例,其中有逐步的过程使系统学习并对输入数据进行分类。

它对给定的 5 个数据集域进行了正确分类。此外,它还对停用词进行分类。

例如

输入:docs_new = ['上帝就是爱', '什么在哪里']

输出:

'God is love' => soc.religion.christian
'what is where' => soc.religion.christian

此处 what is where 不应分类,因为它仅包含停用词。 scikit 在这种场景下如何学习函数?

最佳答案

我不确定您使用的是什么分类器。但我们假设您使用朴素贝叶斯分类器。

在这种情况下,样本被标记为给定特定单词模式后验概率最大的类。
后验概率计算为

后验 = 可能性 x 先验

请注意,证据项已被删除,因为它是常数)。此外,还有附加平滑以避免可能性为零的情况。
无论如何,如果您的输入文本中只有停用词,则所有类别的可能性都是恒定的,并且后验概率完全由您的先验概率决定。因此,基本上发生的情况是,朴素贝叶斯分类器(如果先验是根据训练数据估计的)将分配训练数据中最常出现的类标签。

关于machine-learning - scikit learn 对停用词进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25644905/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com