- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是随机森林分类器的新手。我正在使用它对具有两个类别的数据集进行分类。- 特征数量为 512。- 数据比例为1:4。即,75%的数据来自第一类,25%来自第二类。- 我使用了 500 棵树。
分类器产生 21.52% 的袋外错误。第一类(由 75% 的训练数据表示)的每类误差为 0.0059。而第二类的分类误差确实很高:0.965。
我正在寻找对此行为的解释,以及您是否有提高第二类准确性的建议。
我期待您的帮助。
谢谢
忘记说我正在使用 R 并且在上面的测试中使用了 1000 的节点大小。
这里我只用 10 棵树和节点大小 = 1 重复训练(只是为了给出一个想法),下面是 R 中的函数调用和混淆矩阵:
随机森林类型:分类
树木数量:10
没有。每次拆分尝试的变量数:22
OOB 错误率估计:24.46%
混淆矩阵:
不相关、相关、类错误
最佳答案
我同意@usr的观点,一般来说,当您看到随机森林简单地将(几乎)每个观察结果分类为多数类时,这意味着您的特征没有提供太多信息来区分这两个类。
一种选择是运行随机森林,以便对少数类的观察结果进行过采样(而不是从整个数据集进行放回采样)。因此,您可以指定每棵树都建立在大小为 N 的样本上,其中您强制 N/2 的观测值来自每个类(或您选择的其他比例)。
虽然这可能对一些人有帮助,但它绝不是包治百病的 Elixir 。与调整 RF 设置相比,您更有可能通过寻找更好的功能来更好地区分类别,从而获得更多的帮助。
关于RF : high OOB accuracy by one class and very low accuracy by the other, 类别不平衡严重,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10306380/
我正在为我的 .net 应用程序开发一个网络库,现在我正在尝试测试“真实世界”的延迟。 所以目前我正在将时间从服务器发送到客户端并记录该消息传递到应用程序其余部分的时间。 在我认为相当不错的互联网连接
我是一名优秀的程序员,十分优秀!