gpt4 book ai didi

r - 特征选择(Boruta)

转载 作者:行者123 更新时间:2023-11-30 09:51:49 26 4
gpt4 key购买 nike

我正在做信用风险建模,数据有大量特征。我正在使用 boruta 包进行特征选择。该包的计算成本太高,我无法在完整的训练数据集上运行它。我想做的是获取训练数据的子集(假设大约 20-30%),并在该子集数据上运行 boruta 包并获取重要特征。但是当我使用随机森林来训练数据时,我也使用完整的数据集。我的问题是,仅在部分训练数据上选择特征,然后在整个训练数据上构建模型是否正确?

最佳答案

由于这个问题本质上是合乎逻辑的,所以我会给我两分钱。

  1. 我相信 20% 的总体随机样本就足够了
  2. 更进一步,采用 3-4 个这样的随机集,并将所有这些随机集的重要变量相交,这是对上述方法的改进
  3. 使用多种方法中的特征选择(xgboost、一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本,然后采用共同的重要特征

关于r - 特征选择(Boruta),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43757330/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com