gpt4 book ai didi

python - 预先分类的经过训练的 Twitter 评论以进行分类

转载 作者:行者123 更新时间:2023-11-30 09:23:17 25 4
gpt4 key购买 nike

所以我有大约 100 万行 csv 格式的 Twitter 评论数据。我需要将它们分类为某些类别,例如有人在谈论:“产品生命周期”、“便宜/昂贵”、“促销/折扣”等。

如您所见,我有多个类来将这些推文数据分类。问题是,我如何为如此庞大的数据生成/创建训练数据。愚蠢的问题,但我想知道是否已经有预先分类/标记的评论数据来训练我们的模型?如果不是,那么为文本/评论的多类分类创建训练数据的最佳方法是什么?

虽然我已经尝试和测试了 NaiveBayes 对较小数据集的情感分类,但您能否建议我应该使用哪个分类器来解决这个问题(将评论分类为多个类别)。

谢谢!!!

最佳答案

The thing is that how do I even generate/create a training data for such a huge data

我建议找到一个训练数据集,可以帮助您了解您感兴趣的类别。比如说,与价格相关的文章,您可能想要找到一个全部与价格相关的文章有关的训练数据集,然后也许可以扩展通过使用廉价等关键词的同义词来实现这一点。也许还可以研究一下句子结构,看看句子的结构是否对你的分类器算法有帮助。

If not then what is the best approach to create a training data for multi-class classification of text/comments? key-words, pulling articles that are all about related categories and then go from there.

最后,我建议非常熟悉 NLTK 的语料库,这也可能有助于您检索训练数据。

关于你的最后一个问题,我对你所说的“将评论分类为多个类别”的意思有点困惑,你的意思是有多个分类器来属于特定的评论吗?那么一条评论可以属于 1 到多个分类器吗?

关于python - 预先分类的经过训练的 Twitter 评论以进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26211308/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com