gpt4 book ai didi

RF : high OOB accuracy by one class and very low accuracy by the other, 类别不平衡严重

转载 作者:行者123 更新时间:2023-11-30 08:29:40 25 4
gpt4 key购买 nike

我是随机森林分类器的新手。我正在使用它对具有两个类别的数据集进行分类。- 特征数量为 512。- 数据比例为1:4。即,75%的数据来自第一类,25%来自第二类。- 我使用了 500 棵树。

分类器产生 21.52% 的袋外错误。第一类(由 75% 的训练数据表示)的每类误差为 0.0059。而第二类的分类误差确实很高:0.965。

我正在寻找对此行为的解释,以及您是否有提高第二类准确性的建议。

我期待您的帮助。

谢谢

忘记说我正在使用 R 并且在上面的测试中使用了 1000 的节点大小。

这里我只用 10 棵树和节点大小 = 1 重复训练(只是为了给出一个想法),下面是 R 中的函数调用和混淆矩阵:

  • randomForest(公式 = Label ~ ., 数据 = chData30PixG12, ntree = 10,重要性 = TRUE, 节点大小 = 1, keep.forest = FALSE, do.trace = 50)
  • 随机森林类型:分类

  • 树木数量:10

  • 没有。每次拆分尝试的变量数:22

  • OOB 错误率估计:24.46%

  • 混淆矩阵:

  • 不相关、相关、类错误

  • 不相关 37954、4510、0.1062076
  • 相关 8775、3068、0.7409440

最佳答案

我同意@usr的观点,一般来说,当您看到随机森林简单地将(几乎)每个观察结果分类为多数类时,这意味着您的特征没有提供太多信息来区分这两个类。

一种选择是运行随机森林,以便对少数类的观察结果进行过采样(而不是从整个数据集进行放回采样)。因此,您可以指定每棵树都建立在大小为 N 的样本上,其中您强制 N/2 的观测值来自每个类(或您选择的其他比例)。

虽然这可能对一些人有帮助,但它绝不是包治百病的 Elixir 。与调整 RF 设置相比,您更有可能通过寻找更好的功能来更好地区分类别,从而获得更多的帮助。

关于RF : high OOB accuracy by one class and very low accuracy by the other, 类别不平衡严重,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10306380/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com