gpt4 book ai didi

Caret 中每次交叉验证的训练集和测试集的 ROC 曲线

转载 作者:行者123 更新时间:2023-11-30 08:34:47 25 4
gpt4 key购买 nike

是否可以为 Caret 中的 5 折交叉验证中的每个折分别设置训练集和测试集的 ROC 曲线?

library(caret)
train_control <- trainControl(method="cv", number=5,savePredictions = TRUE,classProbs = TRUE)
output <- train(Species~., data=iris, trControl=train_control, method="rf")

我可以执行以下操作,但我不知道它是否返回 Fold1 训练集或测试集的 ROC:

library(pROC) 
selectedIndices <- rfmodel$pred$Resample == "Fold1"
plot.roc(rfmodel$pred$obs[selectedIndices],rfmodel$pred$setosa[selectedIndices])

最佳答案

确实,documentation关于 rfmodel$pred 的内容根本不清楚 - 我敢打赌,其中包含的预测是针对用作测试集的折叠,但我无法指出文档中的任何证据;尽管如此,无论如何,您在尝试获取 ROC 的过程中仍然遗漏了一些要点。

首先,让我们将 rfmodel$pred 隔离在一个单独的数据框中,以便于处理:

dd <- rfmodel$pred

nrow(dd)
# 450

为什么是 450 行?这是因为您尝试了 3 个不同的参数集(在您的情况下,mtry 只有 3 个不同的值):

rfmodel$results
# output:
mtry Accuracy Kappa AccuracySD KappaSD
1 2 0.96 0.94 0.04346135 0.06519202
2 3 0.96 0.94 0.04346135 0.06519202
3 4 0.96 0.94 0.04346135 0.06519202

150 行 X 3 设置 = 450。

让我们仔细看看rfmodel$pred的内容:

head(dd)

# result:
pred obs setosa versicolor virginica rowIndex mtry Resample
1 setosa setosa 1.000 0.000 0 2 2 Fold1
2 setosa setosa 1.000 0.000 0 3 2 Fold1
3 setosa setosa 1.000 0.000 0 6 2 Fold1
4 setosa setosa 0.998 0.002 0 24 2 Fold1
5 setosa setosa 1.000 0.000 0 33 2 Fold1
6 setosa setosa 1.000 0.000 0 38 2 Fold1
  • obs 包含真实值
  • 三列 setosaversicolorvirginica 包含为每个类别计算的相应概率,并且每行的总和为 1
  • pred 包含最终预测,即上述三列中概率最大的类别

如果这就是整个故事,那么您绘制 ROC 的方式就可以了,即:

selectedIndices <- rfmodel$pred$Resample == "Fold1"
plot.roc(rfmodel$pred$obs[selectedIndices],rfmodel$pred$setosa[selectedIndices])

但这并不是故事的全部(仅存在 450 行而不是 150 行就应该已经给出了提示):注意名为 mtry;事实上,rfmodel$pred 包含所有次交叉验证运行的结果(即所有参数设置):

tail(dd)
# result:
pred obs setosa versicolor virginica rowIndex mtry Resample
445 virginica virginica 0 0.004 0.996 112 4 Fold5
446 virginica virginica 0 0.000 1.000 113 4 Fold5
447 virginica virginica 0 0.020 0.980 115 4 Fold5
448 virginica virginica 0 0.000 1.000 118 4 Fold5
449 virginica virginica 0 0.394 0.606 135 4 Fold5
450 virginica virginica 0 0.000 1.000 140 4 Fold5

这就是您的 selectedIndices 计算不正确的最终原因;它还应该包括 mtry 的特定选择,否则 ROC 没有任何意义,因为它“聚合”了多个模型:

selectedIndices <- rfmodel$pred$Resample == "Fold1" & rfmodel$pred$mtry == 2

--

正如我在一开始所说的,我敢打赌 rfmodel$pred 中的预测是针对作为测试集的文件夹;事实上,如果我们手动计算精度,它们与上面显示的 rfmodel$results 中报告的精度一致(所有 3 个设置均为 0.96),我们知道这是用作 test 的文件夹/em>(可以说,各自的训练精度为1.0):

for (i in 2:4) {  # mtry values in {2, 3, 4}

acc = (length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold1'))/30 +
length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold2'))/30 +
length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold3'))/30 +
length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold4'))/30 +
length(which(dd$pred == dd$obs & dd$mtry==i & dd$Resample=='Fold5'))/30
)/5

print(acc)
}

# result:
[1] 0.96
[1] 0.96
[1] 0.96

关于Caret 中每次交叉验证的训练集和测试集的 ROC 曲线,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46887972/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com