gpt4 book ai didi

machine-learning - 如何在机器学习中对不平衡数据进行建模?

转载 作者:行者123 更新时间:2023-11-30 09:07:47 25 4
gpt4 key购买 nike

我使用的数据集具有高度不平衡的数据(Y=5% 和 N=95%),该数据集有 3000 个唯一记录。为了选择特征,我使用了信息增益。然后应用百分比分割为 66 的随机森林。正确分类的实例 96.1698 %错误分类的实例 3.8302 %

===混淆矩阵===

a----- b <--分类为

901 11 | a = N

26 28 | b = Y

此外,我尝试过 SMOTE 过滤器,但这并没有改变太多东西(得到非常相似的结果。)我应用 SMOTE 过滤器到 N 和 Y 的实例几乎相等的程度。

数据是否有可能过度拟合?还有比这更好的方法吗?

最佳答案

以我个人的经验来看,不平衡数据可以从数据层面和算法层面来处理。 SMOTE 中发生的情况是算法尝试通过复制或过度采样少数类数据来重新平衡数据,我认为应该谨慎使用,因为存在过度拟合的可能性。您是否通过此链接尝试过海林格距离决策树(HDDT)https://www3.nd.edu/~nchawla/papers/DMKD11.pdf

关于machine-learning - 如何在机器学习中对不平衡数据进行建模?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47401720/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com