r - 特征选择(Boruta)-6ren

r - 特征选择(Boruta)

转载作者：行者123 更新时间：2023-11-30 09:51:49

我正在做信用风险建模，数据有大量特征。我正在使用 boruta 包进行特征选择。该包的计算成本太高，我无法在完整的训练数据集上运行它。我想做的是获取训练数据的子集(假设大约 20-30%)，并在该子集数据上运行 boruta 包并获取重要特征。但是当我使用随机森林来训练数据时，我也使用完整的数据集。我的问题是，仅在部分训练数据上选择特征，然后在整个训练数据上构建模型是否正确？

最佳答案

由于这个问题本质上是合乎逻辑的，所以我会给我两分钱。

我相信 20% 的总体随机样本就足够了
更进一步，采用 3-4 个这样的随机集，并将所有这些随机集的重要变量相交，这是对上述方法的改进
使用多种方法中的特征选择(xgboost、一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本，然后采用共同的重要特征

关于r - 特征选择(Boruta)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43757330/

文章推荐： javascript - jQuery 将对象数组转换为带键的数组

r - 特征选择(Boruta)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
R boruta 包 - (列表)对象无法强制为类型 'double'
我正在尝试在我的数据集上运行 boruta 特征选择。代码如下: df boruta.train<-Boruta(as.matrix(X),as.matrix(Y)) Error: Variable

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 特征选择(Boruta)