gpt4 book ai didi

data-mining - 情绪分析训练集

转载 作者:行者123 更新时间:2023-12-02 03:26:49 26 4
gpt4 key购买 nike

我正在使用NLTK python进行情感分析,我的数据有大约200,000条评论。要使用朴素贝叶斯分类器,我需要具有标记的训练集。由于我的数据没有标签,因此我手动创建了大约100条正面和负面评论。但是我不认为这是这样做的方式。我听说我需要有20%的数据作为训练集来训练分类器,并将其应用于其余80%的数据。

有没有更好的方法来为朴素贝叶斯分类器生成训练集?感谢您的帮助,如果您不清楚这些问题,请告诉我。

最佳答案

我们仅使用大约100-200个训练样本(取决于特定的分类)就以非常高的准确性对数十万个段落进行分类,取得了巨大的成功。

我们对随机选择的样本进行了手工过滤,以确保它们彼此之间不太相似(因此代表了表达概念的不同方式)。我们使用RapidMiner进行分类,而不是使用NLTK,但是我希望算法非常相似。

用100条评论来运行分类器,然后对不在训练集中的100条随机评论进行分类。检查准确性,如果准确性不符合您的期望,则将更多评论添加到训练集中。

关于data-mining - 情绪分析训练集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29858967/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com