gpt4 book ai didi

python - 多标签分类

转载 作者:太空宇宙 更新时间:2023-11-04 00:07:17 26 4
gpt4 key购买 nike

我有大约 1000 篇与科技相关的新闻文章。我需要训练一个分类器来预测每篇文章的 3(计算机科学、电子、电气)置信度分数。每个分数代表文章属于每个领域的程度。置信度分数将是一个介于 0 和 1 之间的值。

但是数据集没有训练标签。

我该如何从这里开始?我需要什么样的数据?如何训练这样的模型?

最佳答案

因此这不是分类问题。只要您没有任何标签,它就是不受监督的。

您可以做的是查看 K-Means(无监督机器学习算法),它允许您将数据聚类到预定义的聚类数量(此处为 3):

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans

但你不会有任何措施来验证“ground truth”

如果你真的想更进一步,你可以尝试自己标记这些文章(比如计算机科学、电子和电气)并尝试一些监督算法(使用 scikit-learn)/神经网络net(使用 tensorflow)。

想法是向量化您的输入数据(您可以查看 TF-IDF),然后尝试任何监督模型。

这称为自然语言处理。您还有可以帮助您执行此操作的库。

NLTK 和 Spacy 是一个好的开始:

https://www.nltk.org/

https://spacy.io/

关于python - 多标签分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53668101/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com