gpt4 book ai didi

machine-learning - 随机蕨类植物的不平衡数据

转载 作者:行者123 更新时间:2023-11-30 09:38:25 25 4
gpt4 key购买 nike

对于多类问题,随机森林和随机蕨等机器学习算法的数据是否应该平衡,或者一定程度的不平衡是否可以?

最佳答案

当不成比例改变类实例的可分离性时,就会出现不平衡类的问题。但这在不平衡的数据集中不会发生:有时,您从一个类中获得的数据越多,您就可以更好地区分稀疏数据,因为它可以让您更轻松地找到哪些特征对于创建区分平面有意义(即使您是不使用判别分析,重点是根据类别对实例进行分类)。

例如,我记得 KDDCup2004蛋白质分类任务,其中一类拥有训练集中 99.1% 的实例,但如果您尝试使用欠采样方法来缓解不平衡,您只会得到更糟糕的结果。这意味着第一类中的大量数据定义了较小类中的数据。

关于随机森林和一般的决策树,它们的工作原理是在每一步选择最有希望的特征,该特征可以将集合划分为两个(或更多)具有类意义的子集。默认情况下(=总是),拥有关于一个类别的更多数据不会使这种划分产生偏差,但只有当不平衡不能代表类别的真实分布时才会出现这种情况。

因此,我建议您首先运行多变量分析,尝试了解数据集中各类之间的不平衡程度,如果您仍然有疑问,则使用不同的欠采样率运行一系列实验。

关于machine-learning - 随机蕨类植物的不平衡数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17937240/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com