gpt4 book ai didi

通过调整和交叉验证进行随机森林优化

转载 作者:行者123 更新时间:2023-11-30 08:32:35 25 4
gpt4 key购买 nike

我正在处理一个大型数据集,因此希望删除无关变量并调整每个分支的最佳 m 个变量。在 R 中,有两种方法:rfcv 和tunerRF,可以帮助完成这两项任务。我正在尝试将它们结合起来来优化参数。

rfcv 的工作原理大致如下:

create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
run random forest with remaining variables, reporting cverror and predictions
}

目前,我已将 rfcv 重新编码为如下工作:

create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
tune for the best m for reduced variable set;
run random forest with remaining variables, reporting cverror and predictions;
}

这当然会使运行时间增加一个数量级。我的问题是这有多么必要(使用玩具数据集很难得到一个想法),以及是否有任何其他方法可以在更短的时间内大致实现同样的效果。

最佳答案

一如既往,答案是取决于数据。一方面,如果没有任何不相关的特征,那么你可以完全跳过特征消除。随机森林实现中的树构建过程已经尝试选择预测特征,这为您提供了一些针对不相关特征的保护。

Leo Breiman 发表了一次演讲,他在一些医学预测任务中引入了 1000 个不相关的特征,而该任务只有少量来自输入域的真实特征。当他使用单个变量重要性过滤器消除 90% 的特征时,随机森林的下一次迭代不会选择任何不相关的特征作为其树中的预测因子。

关于通过调整和交叉验证进行随机森林优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11940141/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com