gpt4 book ai didi

machine-learning - 随机森林分类器 class_weight

转载 作者:行者123 更新时间:2023-11-30 09:28:54 27 4
gpt4 key购买 nike

我有一个不平衡的数据集,其中 200000 个描述属于 0 类,大约 10000 个描述属于 1 类。但是,在我的训练数据集中,我有相同数量的“正”和“负”样本,每个样本大约 8000 个。所以现在我对如何正确使用分类器的“class_weight”选项感到困惑。似乎只有当训练数据中“正”和“负”样本的数量与整个数据集中的“正”和“负”样本数量相同时,它才有效。在这种情况下,将是 8000 个“正”和 160000 个“负”,这实际上是不可行的。减少“阳性”样本的数量似乎也不是一个好主意。还是我错了?

最佳答案

class_weight选项只不过是增加代表性不足的类犯错误的权重。换句话说,对稀有类别进行错误分类会受到更严厉的惩罚。

分类器可能在您的测试集上表现更好(两个类的表示相同,因此两者同等重要),但您可以轻松地自己验证这一点。

副作用是 predict_proba 返回的概率与实际概率相差甚远。 (如果您想了解原因,请绘制简单平均机会以及在不使用和使用不同 class_weight= 的情况下预测分数的分布。预测分数如何变化?)。根据您的最终用例(分类、排名、概率估计),您应该考虑模型中的选择。

关于machine-learning - 随机森林分类器 class_weight,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47677754/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com