gpt4 book ai didi

machine-learning - scikit learn 对不相关(域外)数据进行分类

转载 作者:行者123 更新时间:2023-11-30 09:56:34 27 4
gpt4 key购买 nike

我已经使用 MultinomialNB 使用 20 个域训练了我的分类器。

分类器对于 20 个经过训练的数据集运行良好。

但问题是,假设我正在使用 20 个域中的文本进行查询,即使它对该文本进行了分类。我预计域外输入的概率为 0。

例如

查询:“core i7 是英特尔处理器”

我使用宗教体育天文学领域训练了数据。

查询不属于任何这些域,即使它为任何域提供了 33% 的结果。

类似的查询:'where is what',也被分类到上述域中。

如何为属于域外的查询显示 0 个结果?或者任何 scikit 函数可以给出域外的概率裕度是多少?

还有什么方法可以查看查询中停用词的边距吗?

最佳答案

如果你训练来区分 3 个标签,那么每个输入都会获得这三个标签之一。

您可以为“所有不能分类为宗教、体育、天文学的事物”训练一个附加标签。

然后您可以将该标签用作“检测到的域外”。

关于machine-learning - scikit learn 对不相关(域外)数据进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25642173/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com