r - 使用 caret rfe 进行特征选择并使用另一种方法进行训练-6ren

r - 使用 caret rfe 进行特征选择并使用另一种方法进行训练

转载作者：行者123 更新时间：2023-12-04 13:21:32

32

4

现在，我正在尝试使用 Caret rfe 函数来执行特征选择，因为我处于 p>>n 的情况下，并且大多数不涉及某种正则化的回归技术都不能很好地使用。我已经使用了一些正则化技术(套索)，但我现在想尝试的是减少我的特征数量，以便我能够在其上运行，至少是体面的，任何类型的回归算法。

control <- rfeControl(functions=rfFuncs, method="cv", number=5)
model <- rfe(trainX, trainY, rfeControl=control)
predict(model, testX)

现在，如果我这样做，将运行使用随机森林的特征选择算法，然后根据 5 折交叉验证，具有最佳特征集的模型将用于预测，对吧?

我对这里的两件事很好奇:
1)是否有一种简单的方法来获取一组特征，并在其上训练另一个用于特征选择的函数？例如，将似乎更重要的特征数量从 500 减少到 20 左右，然后应用 k 最近邻域。

我正在想象一种简单的方法来做到这一点，看起来像这样:

control <- rfeControl(functions=rfFuncs, method="cv", number=5)
model <- rfe(trainX, trainY, method = "knn", rfeControl=control)
predict(model, testX)

2)有没有办法调整特征选择算法的参数？我想对 mtry 的值进行一些控制。与使用 Caret 中的 train 函数时传递值网格的方式相同。有没有办法用rfe做这样的事情？

最佳答案

这是一个关于如何使用内置模型执行 rfe 的简短示例:

library(caret)
library(mlbench) #for the data
data(Sonar)

rctrl1 <- rfeControl(method = "cv",
                     number = 3,
                     returnResamp = "all",
                     functions = caretFuncs,
                     saveDetails = TRUE)

model <- rfe(Class ~ ., data = Sonar,
             sizes = c(1, 5, 10, 15),
             method = "knn",
             trControl = trainControl(method = "cv",
                                      classProbs = TRUE),
             tuneGrid = data.frame(k = 1:10),
             rfeControl = rctrl1)

model
#output
Recursive feature selection

Outer resampling method: Cross-Validated (3 fold) 

Resampling performance over subset size:

 Variables Accuracy  Kappa AccuracySD KappaSD Selected
         1   0.6006 0.1984    0.06783 0.14047         
         5   0.7113 0.4160    0.04034 0.08261         
        10   0.7357 0.4638    0.01989 0.03967         
        15   0.7741 0.5417    0.05981 0.12001        *
        60   0.7696 0.5318    0.06405 0.13031         

The top 5 variables (out of 15):
   V11, V12, V10, V49, V9

model$fit$results
#output
    k  Accuracy     Kappa AccuracySD   KappaSD
1   1 0.8082684 0.6121666 0.07402575 0.1483508
2   2 0.8089610 0.6141450 0.10222599 0.2051025
3   3 0.8173377 0.6315411 0.07004865 0.1401424
4   4 0.7842208 0.5651094 0.08956707 0.1761045
5   5 0.7941775 0.5845479 0.07367886 0.1482536
6   6 0.7841775 0.5640338 0.06729946 0.1361090
7   7 0.7932468 0.5821317 0.07545889 0.1536220
8   8 0.7687229 0.5333385 0.05164023 0.1051902
9   9 0.7982468 0.5918922 0.07461116 0.1526814
10 10 0.8030087 0.6024680 0.06117471 0.1229467

更多定制请参见:

https://topepo.github.io/caret/recursive-feature-elimination.html

关于r - 使用 caret rfe 进行特征选择并使用另一种方法进行训练，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51933704/

32

4

0

文章推荐： Vaadin 10，如何将 css 类添加到 Java 中的 div 元素？

文章推荐： Django:FileField，缺少 content_type

文章推荐： emacs - 将启用相对行号添加到 init.el

文章推荐： json - 使用 BusyBox 工具解析 JSON

r - 插入符号的 rfe 函数中的下标越界错误
我正在尝试使用 Caret 的 rfe 函数来进行特征选择。我的代码甚至在几天前还有效。现在我得到了边界错误的下标。奇怪的是，我可以使用来自另一个包的一些内置数据运行 rfe 函数，没问题，这对我来说
r - 访问插入符号中 rfe 生成的所有模型
我正在使用 caret 包中的 rfe 函数为逻辑回归模型进行特征选择。我正在查看 5、10、15、20 和 25 的 sizes 使用 Rsquared 选择最佳模型(我的因变量是 0,1)。除了最
R 试图让插入符/rfe 工作
我有一个数据集，我正在尝试使用 R 中 caret 包中的 rfe()。 x 是我尝试预测的价格。 y 是我用来进行预测的变量。我无法让 rfe 停止给出以下错误消息: > lmProfile2
r - 使用 caret rfe 进行特征选择并使用另一种方法进行训练
现在，我正在尝试使用 Caret rfe 函数来执行特征选择，因为我处于 p>>n 的情况下，并且大多数不涉及某种正则化的回归技术都不能很好地使用。我已经使用了一些正则化技术(套索)，但我现在想尝试的
R caret/rfe/bayesglm 特征选择
我正在使用 bayesglm 解决逻辑回归问题。这是一个包含 150 行和 2000 个变量的数据集。我正在尝试进行变量选择，通常会查看 caret::rfe 中的 glmnet。但是，bayesgl
R caret/rfe/bayesglm 特征选择
我正在使用 bayesglm 解决逻辑回归问题。这是一个包含 150 行和 2000 个变量的数据集。我正在尝试进行变量选择，通常会查看 caret::rfe 中的 glmnet。但是，bayesgl
R 的插入符号包中的 rfe() 中的 ROC
我正在使用 R 中的插入符包来训练径向基 SVM 进行分类；此外，使用线性SVM进行变量选择。使用 metric="Accuracy"，效果很好，但最终我对优化 metric="ROC"更感兴趣。虽然
machine-learning - 递归特征消除 (RFE) SKLearn
我创建了一个表格来测试我的理解 F1 F2 Outcome 0 2 5 1 1 4 8 2 2 6 0 3 3 9
r - 插入符号 : RFE with variable tuneGrid
我正在尝试使用插入符来拟合 PLS 模型，同时优化组件“ncomps”的数量: library("caret") set.seed(342) train pls.fit.rfe pls.fit.r
python - 将 n_features_to_select RFE 设置为管道中的百分比
我有一个像这样的管道: lin_reg_pipeline = Pipeline([ ('polynomial_features', PolynomialFeatures()), ('n
python - 迭代 RFE 分数 sklearn
我使用 RFE 和 ExtraTreeRegressor 作为估计器，以便在回归问题中进行 SupervisedFeatureSelection。我通过以下通用代码获得模型的排名和支持: rfe_v
r caret 包，如果我为 rfe 控制和列车控制指定索引则出错
当我为 rfe.control 和 train.control 指定索引时出现错误为了制作 glmnet rfe 函数，我编写了代码 glmnetFuncs nearZeroVar(x[index
scikit-learn - 将 sklearn RFE 与来自另一个包的估算器一起使用
是否可以将 sklearn 递归特征消除(RFE)与来自另一个包的估计器一起使用？具体来说，我想使用 statsmodels 包中的 GLM 并将其包装在 sklearn RFE 中？如果是的话，
python-2.7 - 从递归特征消除 (RFE) 中提取最佳特征
我有一个数据集，其中包含具有 124 个特征的分类数据和数值数据。为了降低其维度，我想删除不相关的功能。然而，为了针对特征选择算法运行数据集，我使用 get_dummies 对其进行热编码，这将特征数
python-2.7 - 从递归特征消除 (RFE) 中提取最佳特征
我有一个数据集，其中包含具有 124 个特征的分类数据和数值数据。为了降低其维度，我想删除不相关的功能。然而，为了针对特征选择算法运行数据集，我使用 get_dummies 对其进行热编码，这将特征数
python - 通过应用 RFE 选择提供最佳调整 R 平方值的特征子集
我有两个目标。我想: 循环遍历 1-10 的特征值，然后比较Adjusted R-Squared 值。我知道如何针对下面代码中显示的 1 个固定功能执行此操作。我试图在 selector = RF
python - scikit-learn 中递归特征消除 (RFE) 的排名和分数
我正在尝试理解如何阅读 grid_scores_和 ranking_ RFECV 中的值.这是文档中的主要示例: from sklearn.datasets import make_friedman1
python - 如何将 RFE 与 xgboost Booster 一起使用？
我目前正在使用 xgb.train(...)它返回一个助推器，但我想使用 RFE 来选择最好的 100 个功能。返回的 booster 不能在 RFE 中使用，因为它不是 sklearn 估计器。 X
r - 带有 ROC 的插入符号 rfe + sum 中的特征选择
我一直在尝试使用 caret 包应用递归特征选择。我需要的是 ref 使用 AUC 作为性能度量。谷歌搜索一个月后，我无法使该过程正常工作。这是我使用的代码: library(caret) libra
因子()和 NAs 的 R caret/rfe 变量选择
我有一个包含 NA 的数据集。此外，它还有一些列需要factors()。我正在使用 caret 包中的 rfe() 函数来选择变量。似乎 rfe() 中的 functions= 参数使用 lmF

首页

博学

6Ren·AI

商城

r - 使用 caret rfe 进行特征选择并使用另一种方法进行训练