gpt4 book ai didi

文本分类/机器学习 : do I also need a 'Default' categorie?

转载 作者:行者123 更新时间:2023-11-30 08:46:41 25 4
gpt4 key购买 nike

对于我的作业,我需要制作一个机器学习程序来执行以下操作:

作为输入,程序获取项目的建筑平面图(以 PDF 文本形式编写),主要是桥梁和水闸。机器学习程序将该 PDF 中的每个句子作为样本(该句子中的单词是特征),并且需要将每个样本/句子分类为以下类别之一:硬件相关和软件相关。 (我将朴素贝叶斯算法与TF-DIF结合使用。)

但是,正如你可以想象的,还有很多不相关的句子,既不与硬件也不与软件相关。我是否需要创建一个单独的类别“默认/不相关”,以便我总共拥有三个类别?还是只保留这两个类别,并根据它们的概率对它们进行分类?例如;有一句话在0.6被归类为硬件,那么我就忽略它。但如果结果是 0.8 或更高,那么我将其归类为硬件。

最佳答案

你的训练集中需要使用不相关的句子,我用一个例子来解释原因:

如果您有一个三类分类问题,您可以获得以下输出: 不相关 95% 硬件 4% 软件1%

成为硬件的可能性是成为软件的可能性的 4 倍。但你显然会选择不相关。

如果您使用两类数据集,您将获得以下输出: 硬件 80% 软件20%

成为硬件的可能性又是成为软件的可能性的 4 倍,但这两个百分比之和必须为 100%,因为分类器认为这两种可能性都是整个宇宙。

您有两种不同的选择:

1 - 3 类分类问题(硬件、软件、不相关)

2 - 具有 2 类分类问题的两个分类器:

分类器 1 -> 正类硬件,负类:软件 + 不相关

分类器 2 -> 正类软件,负类:硬件 + 不相关

关于文本分类/机器学习 : do I also need a 'Default' categorie?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40357010/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com