作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经使用 MultinomialNB 使用 20 个域训练了我的分类器。
分类器对于 20 个经过训练的数据集运行良好。
但问题是,假设我正在使用 20 个域中的文本进行查询,即使它对该文本进行了分类。我预计域外输入的概率为 0。
例如
查询:“core i7 是英特尔处理器”
我使用宗教
、体育
、天文学
领域训练了数据。
查询不属于任何这些域,即使它为任何域提供了 33% 的结果。
类似的查询:'where is what',也被分类到上述域中。
如何为属于域外的查询显示 0 个结果?或者任何 scikit 函数可以给出域外的概率裕度是多少?
还有什么方法可以查看查询中停用词
的边距吗?
最佳答案
如果你训练来区分 3 个标签,那么每个输入都会获得这三个标签之一。
您可以为“所有不能分类为宗教、体育、天文学的事物”训练一个附加标签。
然后您可以将该标签用作“检测到的域外”。
关于machine-learning - scikit learn 对不相关(域外)数据进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25642173/
我已经使用 MultinomialNB 使用 20 个域训练了我的分类器。 分类器对于 20 个经过训练的数据集运行良好。 但问题是,假设我正在使用 20 个域中的文本进行查询,即使它对该文本进行了分
我是一名优秀的程序员,十分优秀!