gpt4 book ai didi

machine-learning - 针对大不平衡数据的机器学习模型建议

转载 作者:行者123 更新时间:2023-11-30 08:41:16 25 4
gpt4 key购买 nike

我有分类问题的数据集。我总共有50节课。

 Class1: 10,000 examples 
Class2: 10 examples
Class3: 5 examples
Class4: 35 examples
.
.
.
and so on.

我尝试使用 SVM(线性核和高斯核)来训练我的分类器。我的测试数据准确率非常差,分别为 65% 和 72%。现在我正在考虑选择神经网络。对于大量不平衡数据的机器学习模型和算法,您有什么建议吗?这对我来说非常有帮助

最佳答案

您应该提供有关数据集特征和类别分布的更多信息,这将有助于其他人向您提供建议。无论如何,我认为神经网络不适合这里,因为这个数据集对于它来说太小了。

假设 50% 或更多的样本属于 1 类,那么我首先会寻找一个区分 1 类和非 1 类样本的分类器(二元分类)。该分类器应该优于朴素分类器(基准),后者随机选择一个具有与训练集类别分布相对应的先验的分类。例如,假设有 1,000 个样本,其中 700 个属于第 1 类,那么基准分类器将以 700/1,000=0.7 的概率将新样本分类为第 1 类(就像不公平的抛硬币一样)。

一旦找到具有良好准确度的分类器,下一阶段就可以将非 1 类分类样本分类为其他 49 个类别之一,假设这些类别更加平衡,那么我将从 RF、NB 和 KNN 开始。

关于machine-learning - 针对大不平衡数据的机器学习模型建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37370011/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com