gpt4 book ai didi

machine-learning - 如何处理机器学习分类问题的小型且不平衡的数据集

转载 作者:行者123 更新时间:2023-11-30 08:35:05 25 4
gpt4 key购买 nike

我正在处理一个非常具有挑战性的分类问题,我遇到三个问题:小数据集(大约 800 个样本)、不平衡数据集(4 个类,每个类 1 - 600 个样本,2/3/4 - 50 个样本)和缺失特征之一中的数据。

我一直在考虑的一些事情:

  • 生成合成数据,例如使用 SMOTE(合成少数过采样技术)。

  • 将分类变成少数和多数之间的二元分类。

  • 组合不同的分类器,对负样本给予更多的权重(以防我变成二元分类器)。

  • 通过在成本函数中应用特定权重来进行成本敏感学习(与之前的类似,但使用所有 4 个类别)。

我打算使用朴素贝叶斯、SVM、随机森林和神经网络以及 2 折交叉验证作为分类器。稍后我可能会转向 5 到 10 倍。

功能的一些特点:

  • 5 个连续的,其中 3 个只是基于图形位置(最小值、最大值和分布)的不同属性,其中一些具有非常低的方差和重复数据

  • 2 个二进制特征,其中之一缺少数据。

数据片段:

Y   X1  X2_min  X2_max  X2_distribution X3  X4  X5
3 6 1 11 3.3058739 0 1 1
3 662 1 11 1.7779095 1 15 1
1 6 1 7 3.060274 0 1 1
3 8 1 6 2.9697127 0 1 1
3 82 1 14 3.0341356 0 1 1
2 39 1 7 4.2189913 0 1 1
4 1 3 14 4.6185904 1 1

如果有任何再考虑,我将不胜感激。

最佳答案

我建议要么选择更大的权重,要么复制属于较小类别的数据。一种方法是在复制较小类的实例时向其添加随机噪声。噪声的方差可以根据每个类别内特征的方差来估计。

关于machine-learning - 如何处理机器学习分类问题的小型且不平衡的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33814090/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com