machine-learning - scikit learn 对不相关(域外)数据进行分类-6ren

machine-learning - scikit learn 对不相关(域外)数据进行分类

转载作者：行者123 更新时间：2023-11-30 09:56:34

我已经使用 MultinomialNB 使用 20 个域训练了我的分类器。

分类器对于 20 个经过训练的数据集运行良好。

但问题是，假设我正在使用 20 个域中的文本进行查询，即使它对该文本进行了分类。我预计域外输入的概率为 0。

例如

查询:“core i7 是英特尔处理器”

我使用宗教、体育、天文学领域训练了数据。

查询不属于任何这些域，即使它为任何域提供了 33% 的结果。

类似的查询:'where is what'，也被分类到上述域中。

如何为属于域外的查询显示 0 个结果？或者任何 scikit 函数可以给出域外的概率裕度是多少？

还有什么方法可以查看查询中停用词的边距吗？

最佳答案

如果你训练来区分 3 个标签，那么每个输入都会获得这三个标签之一。

您可以为“所有不能分类为宗教、体育、天文学的事物”训练一个附加标签。

然后您可以将该标签用作“检测到的域外”。

关于machine-learning - scikit learn 对不相关(域外)数据进行分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25642173/

machine-learning - scikit learn 对不相关(域外)数据进行分类
我已经使用 MultinomialNB 使用 20 个域训练了我的分类器。分类器对于 20 个经过训练的数据集运行良好。但问题是，假设我正在使用 20 个域中的文本进行查询，即使它对该文本进行了分

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章