文本分类/机器学习 : do I also need a 'Default' categorie?-6ren

文本分类/机器学习 : do I also need a 'Default' categorie?

转载作者：行者123 更新时间：2023-11-30 08:46:41

对于我的作业，我需要制作一个机器学习程序来执行以下操作:

作为输入，程序获取项目的建筑平面图(以 PDF 文本形式编写)，主要是桥梁和水闸。机器学习程序将该 PDF 中的每个句子作为样本(该句子中的单词是特征)，并且需要将每个样本/句子分类为以下类别之一:硬件相关和软件相关。 (我将朴素贝叶斯算法与TF-DIF结合使用。)

但是，正如你可以想象的，还有很多不相关的句子，既不与硬件也不与软件相关。我是否需要创建一个单独的类别“默认/不相关”，以便我总共拥有三个类别？还是只保留这两个类别，并根据它们的概率对它们进行分类？例如;有一句话在0.6被归类为硬件，那么我就忽略它。但如果结果是 0.8 或更高，那么我将其归类为硬件。

最佳答案

你的训练集中需要使用不相关的句子，我用一个例子来解释原因:

如果您有一个三类分类问题，您可以获得以下输出: 不相关 95% 硬件 4% 软件1%

成为硬件的可能性是成为软件的可能性的 4 倍。但你显然会选择不相关。

如果您使用两类数据集，您将获得以下输出: 硬件 80% 软件20%

成为硬件的可能性又是成为软件的可能性的 4 倍，但这两个百分比之和必须为 100%，因为分类器认为这两种可能性都是整个宇宙。

您有两种不同的选择:

1 - 3 类分类问题(硬件、软件、不相关)

2 - 具有 2 类分类问题的两个分类器:

分类器 1 -> 正类硬件，负类:软件 + 不相关

分类器 2 -> 正类软件，负类:硬件 + 不相关

关于文本分类/机器学习 : do I also need a 'Default' categorie?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40357010/