gpt4 book ai didi

machine-learning - Scikit Learn 中小正样本集的机器学习实验设计

转载 作者:行者123 更新时间:2023-11-30 09:01:11 26 4
gpt4 key购买 nike

我对有关如何训练具有非常有限的正集和大量负集的集的任何提示感兴趣。

我有大约 40 个正样本(关于特定主题的相当长的文章)和大约 19,000 个负样本(大部分来自 sci-kit learn 新闻组数据集)。我还有大约 1,000,000 条可以处理的推文......对我正在尝试训练的主题持负面态度。负集与正集的大小会对分类器的训练产生负面影响吗?

我想在 sci-kit learn 中使用交叉验证。我需要将其分解为训练/测试开发/测试集吗?据了解,sci-kit 中有一些预先构建的库。您推荐或以前使用过的任何实现示例都会有所帮助。谢谢!

最佳答案

第一个问题的答案是肯定的,它对结果的影响程度取决于算法。我的建议是密切关注基于类别的统计数据,例如召回率和精确率(可在classification_report中找到)。

  • 对于RandomForest(),您可以查看 this thread其中讨论了样本重量参数。一般来说,sample_weight 是什么您正在 scikit-learn 中查找。

  • 对于 SVM,请查看 this examplethisexample .

  • 对于 NB 分类器,这应该由贝叶斯隐式处理规则,但在实践中您可能会看到一些糟糕的表现。

对于第二个问题,需要讨论,我个人将数据分为训练和测试部分,对训练集进行交叉验证以进行参数估计,对所有训练数据进行重新训练,然后在测试集上进行测试。但是,您拥有的数据量可能会影响您拆分数据的方式(更多数据意味着更多选择)。

关于machine-learning - Scikit Learn 中小正样本集的机器学习实验设计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35345280/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com