gpt4 book ai didi

python - 使用监督机器学习 Python 将推文分类

转载 作者:行者123 更新时间:2023-11-30 09:47:59 24 4
gpt4 key购买 nike

我有一大堆推文,其中一小部分已被手动分配到主题类别。这些类别用数字 1 到 4 表示,每个数字下面大约有 20 条属于该类别的推文。例如:

Category     Tweets

1 ...twenty tweets belonging to category one...

2 ...twenty tweets belonging to category two...

3 ...twenty tweets belonging to category three...

4 ...twenty tweets belonging to category four...

我的目标是实现某种机器学习技术,特别是在 Python 中,它将能够将已经分类的推文及其类别作为算法的训练数据,然后利用它所学到的知识来浏览数据集的其余部分,并为每个类别返回大约 100 条它认为大多数属于该类别的推文。

我研究过监督 LDA、标记 LDA 和 K 最近邻等算法,但我无法理解这些算法如何应用于我的任务。如果有人可以将我链接到一些资源,我将不胜感激,因为我一直在为此烦恼!

最佳答案

如果我正确理解您的问题,您有一小部分标记数据,您希望在其中训练算法,然后希望在大量数据上使用经过训练的算法,以获得每个类别的最佳 100 条推文。

如果是这种情况,逻辑回归可能会很有用,因为它对于文本分类非常成功。它还会给你每条推文属于 4 个类别的概率

例如,推文 1 结果将是这样的 [0.4,0.3,0.2,0.1]。这表明推文 1 属于类别 1。但是,您可以将这些概率存储在单独的列表中,然后对它们进行排序以获得前 100 个。

如果你想让它可扩展,我建议使用 pyspark 库,因为你已经熟悉 python。这是一个方便的教程

https://spark.apache.org/docs/latest/ml-classification-regression.html#logistic-regression

关于python - 使用监督机器学习 Python 将推文分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49846516/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com