gpt4 book ai didi

machine-learning - 涉及数字范围作为标签的多标签分类

转载 作者:行者123 更新时间:2023-11-30 09:37:57 26 4
gpt4 key购买 nike

我有一个分类问题,我的标签是评级,0 - 100,增量为 1(例如 1、2、3、4)。

我有一个数据集,其中每行都有一个名称、文本语料库和一个评分 (0 - 100)。

我试图从文本语料库中提取可以输入到分类器中的特征,分类器将输出每行相应的评分 (0 - 100)。

对于特征选择,我正在考虑从基本的词袋开始。然而,我的问题在于分类算法。 sci-kit learn中是否有支持此类问题的分类算法?

我正在阅读http://scikit-learn.org/stable/modules/multiclass.html ,但所描述的算法似乎支持完全离散的标签,而我有一组连续的标签。

编辑:如果我对评分进行分类怎么办?例如,我可以有 10 个标签,每个标签 1-10。

最佳答案

您可以使用多元回归代替分类。你可以将文本语料库中的 n-gram 特征进行聚类以形成字典,并使用它来形成特征集。使用此功能集,训练回归模型,其中输出可以是连续值。 U可以对输出实数进行四舍五入,得到1-100之间的离散标签

关于machine-learning - 涉及数字范围作为标签的多标签分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26729440/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com