gpt4 book ai didi

python - ScikitLearn 随机森林中的欠采样与 class_weight

转载 作者:行者123 更新时间:2023-11-28 19:08:36 26 4
gpt4 key购买 nike

我正在将 ScikitLearn 的随机森林应用于极度不平衡的数据集(比率为 1:10 000)。我可以使用 class_weigth='balanced' 参数。我看过它相当于欠采样。

但是,这种方法似乎是对样本施加了权重,并没有改变实际的样本数。

因为随机森林的每棵树都是建立在训练集的随机抽取的子样本上的,恐怕少数类在每个子样本中的代表性不够(或根本没有代表性)。这是真的?这将导致非常有偏见的树。

因此,我的问题是:class_weight="balanced"参数是否允许在极度不平衡的数据集上构建合理无偏的随机森林模型,或者我是否应该找到一种方法对每棵树或构建训练集时的多数类进行欠采样?

最佳答案

我认为您可以将多数类分成 +-10000 个样本,并使用每个样本加上少数类的相同点来训练相同的模型。

关于python - ScikitLearn 随机森林中的欠采样与 class_weight,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43414689/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com