scikit-learn - sklearn 随机森林 : . oob_score

scikit-learn - sklearn 随机森林 : . oob_score_ 太低？

转载作者：行者123 更新时间：2023-12-04 20:41:56

我正在寻找随机森林的应用程序，我在 Kaggle 上发现了以下知识竞赛:

https://www.kaggle.com/c/forest-cover-type-prediction .

遵循以下建议

https://www.kaggle.com/c/forest-cover-type-prediction/forums/t/8182/first-try-with-random-forests-scikit-learn ,

我用过 sklearn 建立一个有 500 棵树的随机森林。

.oob_score_ 约为 2%，但坚持集的得分约为 75%。

只有七类要分类，所以 2% 真的很低。当我交叉验证时，我的分数也一直接近 75%。

谁能解释 之间的差异.oob_score_ 和坚持/交叉验证的分数？我希望它们是相似的。

这里有一个类似的问题:

https://stats.stackexchange.com/questions/95818/what-is-a-good-oob-score-for-random-forests

编辑:我认为这也可能是一个错误。

该代码由我发布的第二个链接中的原始海报提供。唯一的变化是你必须设置 oob_score = True 当您构建随机森林时。

我没有保存我所做的交叉验证测试，但如果人们需要查看它，我可以重做。

最佳答案

问:谁能解释一下这种差异...
答: sklearn.ensemble.RandomForestClassifier 对象并观察到 .oob_score_ 属性值不是与错误相关的问题。
一、 RandomForest 基于预测器 { Classifier | Regressor } 属于所谓的集成方法的相当特定的角落，所以请注意，典型方法，包括交叉验证，以同样的方式工作 至于其他 AI/ML 学习者。
随机森林 "inner"-logic works heavily with RANDOM-PROCESS , 其中样本 ( DataSET X ) 已知 y == { labels (用于分类器)| targets (对于回归器)} , 在整个森林代中 split ，其中树木得到自举通过 RANDOMLY 将 DataSET 分成树可以看到的部分和树将看不到的部分(从而形成内部 oob-subSET )。
除了对过拟合等人的敏感性的其他影响之外，随机森林 ensemble 不需要进行交叉验证，因为它在设计上不会过度拟合。许多论文还有 Breiman's (伯克利)经验证明为这种说法提供了支持，因为他们提供了证据，即 CV-ed 预测器将具有相同的 .oob_score_

import sklearn.ensemble
aRF_PREDICTOR = sklearn.ensemble.RandomForestRegressor( n_estimators                = 10,           # The number of trees in the forest.
                                                        criterion                   = 'mse',        # { Regressor: 'mse' | Classifier: 'gini' }
                                                        max_depth                   = None,
                                                        min_samples_split           = 2,
                                                        min_samples_leaf            = 1,
                                                        min_weight_fraction_leaf    = 0.0,
                                                        max_features                = 'auto',
                                                        max_leaf_nodes              = None,
                                                        bootstrap                   = True,
                                                        oob_score                   = False,        # SET True to get inner-CrossValidation-alike .oob_score_ attribute calculated right during Training-phase on the whole DataSET
                                                        n_jobs                      = 1,            # { 1 | n-cores | -1 == all-cores }
                                                        random_state                = None,
                                                        verbose                     = 0,
                                                        warm_start                  = False
                                                        )
aRF_PREDICTOR.estimators_                             # aList of <DecisionTreeRegressor>  The collection of fitted sub-estimators.
aRF_PREDICTOR.feature_importances_                    # array of shape = [n_features]     The feature importances (the higher, the more important the feature).
aRF_PREDICTOR.oob_score_                              # float                             Score of the training dataset obtained using an out-of-bag estimate.
aRF_PREDICTOR.oob_prediction_                         # array of shape = [n_samples]      Prediction computed with out-of-bag estimate on the training set.
    
aRF_PREDICTOR.apply(         X )                      # Apply trees in the forest to X, return leaf indices.
aRF_PREDICTOR.fit(           X, y[, sample_weight] )  # Build a forest of trees from the training set (X, y).
aRF_PREDICTOR.fit_transform( X[, y] )                 # Fit to data, then transform it.
aRF_PREDICTOR.get_params(          [deep] )           # Get parameters for this estimator.
aRF_PREDICTOR.predict(       X )                      # Predict regression target for X.
aRF_PREDICTOR.score(         X, y[, sample_weight] )  # Returns the coefficient of determination R^2 of the prediction.
aRF_PREDICTOR.set_params(          **params )         # Set the parameters of this estimator.
aRF_PREDICTOR.transform(     X[, threshold] )         # Reduce X to its most important features.

还应告知，默认值不是最好的，在任何情况下都不是最好的。关注问题域，提出一套合理的 ensemble 参数化，然后再进一步。

问:什么是好的 .oob_score_ ？
答:.oob_score_ 是随机的! . . . . . . .....是的，它必须(是随机的)
虽然这听起来像是一个挑衅的尾声，但不要放弃你的希望。
RandomForest ensemble 是一个很好的工具。特征中的分类值可能会带来一些问题( DataSET X )，但是，一旦您不需要与偏差或过度拟合作斗争，处理集成的成本仍然足够。 那太好了，不是吗？
由于需要能够在随后的重新运行中重现相同的结果，建议您(重新)设置 numpy.random & .set_params( random_state = ... ) 到 RANDOM-PROCESS 之前的已知状态(嵌入到 RandomForest 集成的每个引导中)。这样做，人们可能会观察到 的“降噪”进程。 RandomForest 基于更好的方向的预测器 .oob_score_ 而是由于更多集成成员( n_estimators )引入的真正改进的预测能力，较少约束的树构造( max_depth ， max_leaf_nodes 等)，而不仅仅是“运气好”在如何拆分数据集的随机过程中...
更接近更好的解决方案通常需要更多的树进入集成(RandomForest 决策基于多数票，因此 10-estimators 不是在高度复杂的 DataSET 上做出正确决策的重要基础)。超过 2000 的数字并不少见。可以迭代一系列大小调整(随机过程保持在状态完全控制下)以演示整体“改进”。
如果初始值为 .oob_score_ 下降大约 0.51 - 0.53 你的合奏是 比 RANDOM-GUESS 好 1% - 3%
只有在您使基于集成的预测器变得更好之后，您才可以进入一些关于特征工程等的额外技巧。

aRF_PREDICTOR.oob_score_    Out[79]: 0.638801  # n_estimators =   10
aRF_PREDICTOR.oob_score_    Out[89]: 0.789612  # n_estimators =  100

关于scikit-learn - sklearn 随机森林 : . oob_score_ 太低？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24737304/

文章推荐：基于文本长度的 WPF 文本框背景颜色

文章推荐： sitecore 查询以在多列表中为选定的父级选择子级

文章推荐： gnuplot "stats"命令意外的 min & "out of range"结果

MarkLogic 森林无效的跨设备链接
我们正在运行 MarkLogic 9.0-11 版本 3 节点集群，并且 MarkLogic 安装在“/var/opt/MarkLogic/”目录中，我们创建了“/var/opt/MarkLogic/
javascript - 我如何弄平一片(森林)树木？
我有一片任意高度的森林，大致像这样: let data = [ { "id": 2, "name": "AAA", "parent_id": null, "short_name": "A" },
machine-learning - 何时使用回归树/森林？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 7 年前。 Improve
python - 将深度很大的嵌套字典(森林)写入文本文件
我有一个巨大的深度字典，代表森林(许多非二叉树)，我想处理森林并创建一个包含森林所有可能关系的文本文件，例如给定字典: {'a': {'b': {'c': {}, 'd': {}}, 'g': {}}
android - 获取android上某个位置的区域类型(森林/街道/水域)
在我的 Android 应用程序中，我包含了谷歌地图。现在我想获取有关您周围地区的信息。例如，你是在公园/森林/海滩……所以我基本上想要一个用“水”回答输入坐标 53°33'40.9"N 10°00'
sql-server-2008 - 多个层次结构(森林？)中的成员到一个表中
如果我有下表: Member_Key Member_Name col1 Mem1 col2 Mem2 col3 Mem3 col4
python - 将深度很大的嵌套字典(森林)写入 BFS 样式的文本文件
继续我的老问题: Writing nested dictionary (forest) of a huge depth to a text file 现在我想把森林遍历写成BFS风格:我有一个巨大的深
ssl - 如何使用单个 SSL 证书保护多域(Active Directory 森林)环境中的所有 Web 服务器？
我有一个多域环境(事件目录林)，例如subdomain1.mydomain.com, subdomain2.mydomain.com 其中 mydomain.com 是根 AD 域 (GC) 和 su
c# - 如何恢复具有地形类型(水、森林、平原..)Google/Bing map 的 2D map ？
我想知道是否有可能在 Google map 或 Bing Mag 2D/3D map 上恢复地形类型(山脉、森林、水域、平原等...) 。为了根据玩家在现实世界中的位置生成 map !我认为可用 AP

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scikit-learn - sklearn 随机森林 : . oob_score_ 太低？