gpt4 book ai didi

machine-learning - 如何平衡某个类别具有大量样本的训练数据集?

转载 作者:行者123 更新时间:2023-11-30 08:51:15 25 4
gpt4 key购买 nike

我一直在使用烂番茄电影评论数据集进行情感分析预测。该数据集有 5 个类别 {0,1,2,3,4},其中 0 表示非常负面,4 表示非常正面数据集高度不平衡,

样本总数 = 156061

'0': 7072 (4.5%),
“1”:27273(17.4%),
“2”:79583(50.9%),
“3”:32927(21%),
“4”:9206(5.8%)

如您所见,2 类拥有近 50% 的样本,05 贡献了约 10% 的训练集

因此,2 类存在非常强烈的偏差,从而降低了 04 类的分类准确性。

我可以做什么来平衡数据集?一种解决方案是通过将每个类别的样本减少到仅 7072 个来获得相同数量的样本,但这会大大减少数据集!如何在不影响整体分类准确性的情况下优化和平衡数据集?

最佳答案

您不应该平衡数据集,而应该以平衡的方式训练分类器。几乎所有现有的分类器都可以使用一些成本敏感目标进行训练。例如,SVM 可以让您对样本进行“加权”,只需对较小类别的样本进行更多加权即可。同样,朴素贝叶斯也有类先验 - 改变它们!随机森林、神经网络、逻辑回归,它们都让你以某种方式“加权”样本,这是获得更平衡结果的核心技术。

关于machine-learning - 如何平衡某个类别具有大量样本的训练数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27001196/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com