r - 插入符 - 使用 train()、predict() 和 resamples() 的不同结果-6ren

r - 插入符 - 使用 train()、predict() 和 resamples() 的不同结果

转载作者：行者123 更新时间：2023-11-30 08:31:05

25

4

我正在使用 Caret 包来分析各种模型，并使用以下方法评估结果:

print() [打印train()的结果],
预测()，并且
重新采样()。

为什么以下示例中的结果不同？

我对敏感性(真阳性)感兴趣。为什么 J48_fit 的灵敏度被评估为 0.71，然后是 0.81，然后又是 0.71

当我运行其他模型时，也会发生同样的情况 - 灵敏度会根据评估而变化。

注意:我在这里包含了两个模型，以便说明 resamples() 函数，该函数必须采用两个模型作为输入，但我的主要问题是结果之间的差异取决于所使用的方法。

换句话来说，train() (C5.0_fit/J48_fit)、predict() 和 resamples() 的结果有什么区别？“幕后”发生了什么以及我应该相信哪个结果？

示例:

library(C50)
data(churn)

Seed <- 10

# Set train options
set.seed(Seed)
Train_options <- trainControl(method = "cv", number = 10,
                              classProbs = TRUE,
                              summaryFunction = twoClassSummary)

# C5.0 model:
set.seed(Seed)
C5.0_fit <- train(churn~., data=churnTrain, method="C5.0", metric="ROC",
                 trControl=Train_options)

# J48 model:
set.seed(Seed)
J48_fit <- train(churn~., data=churnTrain, method="J48", metric="ROC",
                 trControl=Train_options)
# Get results by printing the outcome
print(J48_fit)

#                      ROC Sens Spec
# Best (sensitivity): 0.87 0.71 0.98  

# Get results using predict()
set.seed(Seed)
J48_fit_predict <- predict(J48_fit, churnTrain)
confusionMatrix(J48_fit_predict, churnTrain$churn)
#             Reference
# Prediction  yes   no
#       yes  389    14
#       no    94  2836
# Sens : 0.81          
# Spec : 0.99

# Get results by comparing algorithms with resamples()
set.seed(Seed)
results <- resamples(list(C5.0_fit=C5.0_fit, J48_fit=J48_fit))
summary(results)
# ROC         mean
# C5.0_fit    0.92  
# J48_fit     0.87
# Sens        mean
# C5.0_fit    0.76  
# J48_fit     0.71
# Spec        mean
# C5.0_fit    0.99  
# J48_fit     0.98

顺便说一下，这是一个将所有三个结果组合在一起的函数:

Get_results <- function(...){

  Args <- list(...)
  Model_names <- as.list(sapply(substitute({...})[-1], deparse))

  message("Model names:")
  print(Model_names)

  # Function for getting max sensitivity
  Max_sens <- function(df, colname = "results"){
    df <- df[[colname]]
    new_df <- df[which.max(df$Sens), ]
    x <- sapply(new_df, is.numeric)
    new_df[, x] <- round(new_df[, x], 2)
    new_df
  }

  # Find max Sens for each model
  message("Max sensitivity from model printout:")
  Max_sens_out <- lapply(Args, Max_sens)
  names(Max_sens_out) <- Model_names
  print(Max_sens_out)

  # Find predict() result for each model
  message("Results using predict():")
  set.seed(Seed)
  Predict_out <- lapply(Args, function(x) predict(x, churnTrain))
  Predict_results <- lapply(Predict_out, function(x) confusionMatrix(x, churnTrain$churn))
  names(Predict_results) <- Model_names
  print(Predict_results)

  # Find resamples() results for each model

  message("Results using resamples():")
  set.seed(Seed)
  results <- resamples(list(...),modelNames = Model_names)
  # names(results) <- Model_names
  summary(results)

}

# Test
Get_results(C5.0_fit, J48_fit)

非常感谢!

最佳答案

您打印的最佳灵敏度是 10 次折叠中每一次的模型性能的平均值(来自您的简历)。您可以使用 J48_fit$resample 查看每次折叠的性能。然后为了确认，您可以使用 mean(J48_fit$resample[,1]) 取第一列 ROC 的平均值，您将得到 0.865799。

当您在完整数据集上使用 predict() 时，您最终会得到不同的结果，因为数据与重新采样中使用的数据不同 - 您将获得模型性能整个数据，而不是一次 10%。

关于r - 插入符 - 使用 train()、predict() 和 resamples() 的不同结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37008604/

25

4

0

文章推荐： lua - 使用 torch7 模型测试单个图像

google-prediction - Google Prediction API的用例
这里有没有人在使用Google Prediction API？为了什么？它“起作用”了吗？最佳答案如果您正在寻找实际案例，请查看此案例automatically assigns priority
R编程: predict(), "prediction"和 "confidence"吗？
无论如何，学习R ..: 在简单的x和y回归中，我输入: predict(data1.lm, interval="prediction") 和 predict(data1.lm, interval="
r - 插入符号 : Attempt to Predict but prediction row differs
我创建并调整了多个模型，但在尝试预测它们时遇到了问题。我首先按如下方式运行代码来调整 LDA 模型。 library(MASS) library(caret) library(randomForest
r - R 中的 predict 和 glm.predict 错误
问题我在 R 中训练了一个线性回归来预测 this.target来自 city , 数据框中的变量 data .这个训练是在数据的一个子集上完成的，它由 train.index 指定。 . mode
grpc - tensorflow 服务示例中的stub.Predict.future 和stub.Predict 有什么区别？
我正在检查 tf-serving 示例，发现 inception_client.py mnist_client.py 时使用 result = Stub.Predict(request, 10.0)使
python - 机器学习引擎 : Prediction Error while executing local predict command
我已在 Google ML Engine 中上传了该模型的一个版本，其中包含 saved_model.pb 和一个变量文件夹。当我尝试执行命令时: gcloud ml-engine local pre
python - key 错误 : 'predictions' When use SimpleSeq2SeqPredictor to predict string
请先在我们的 GitHub 存储库中搜索类似问题。如果您找不到类似的示例，您可以使用以下模板: 系统(请填写以下信息): - 操作系统:Ubuntu 18.04 - Python版本:3.6.7 -
algorithm - 解决 LL(1) 中的 PREDICT/PREDICT 冲突
我正在研究一个简单的 LL(1) 解析器生成器，我遇到了给定某些输入语法的 PREDICT/PREDICT 冲突问题。例如，给定如下输入语法: E → E + E | P P → 1 我可以
r - `lm` : how to get prediction variance of sum of predicted values 的线性模型
我正在对具有多个预测变量的线性模型的预测值求和，如下例所示，并希望计算该总和的组合方差、标准误差和可能的置信区间。 lm.tree <- lm(Volume ~ poly(Girth,2), data
r - 需要知道 R 中 predict() 和 predict.lm() 的区别
我是 R 和统计学的新手。所以这个问题可能有点愚蠢，但我想知道 R 中的 predict() 和 predict.lm() 之间是否有任何区别？我认为它们是相同的，但如果它们是相同的，为什么会有两个不
r - UseMethod(“predict”)中的错误:没有适用于“predict”的适用方法应用于类“NULL”的对象
我尝试了针对this question而发布的答案，但是错误没有改变。我试图以相同的方式预处理训练集和测试集。它们来自两个不同的文件，我不确定我的老师是否会把我混合在一起，所以在拆分它们之前进行预处理
r - 对于 R 中的随机森林模型，predict() 函数和 model$predicted 有什么区别？
使用随机森林包:- #install.packages("randomForest") library(randomForest) 我使用在线代码在我的系统上运行随机森林。我得到了一个具有混淆矩阵和准
r - 使用方法("predict"): no applicable method for 'predict' applied to an object of class "train"
我有一个模型 (fit)，基于上个月之前的历史信息。现在我想使用我的模型来预测当月的情况。当我尝试调用以下代码时: predicted fit$modelInfo$label [1]“随机森林” 因此
Python 列表表示法，Numpy 数组表示法 : predictions[predictions < 1e-10] = 1e-10
我正在尝试找出应用于列表的操作。我有列表/数组名称预测并执行以下指令集。 predictions[predictions >> a = np.array([1,2,3,4,5]) #define ar
r - 循环中的 predict.lm()。警告 : prediction from a rank-deficient fit may be misleading
此 R 代码引发警告 # Fit regression model to each cluster y fit$rank 检查另一种方法是拥有比可用变量更多的参数: fit2 <- lm(y ~
r - 使用方法错误 ("predict"): no applicable method for 'predict' applied to an object of class "c(' double', 'numeric')
我不是 R 专家。我正在尝试计算多项式模型生成的偏差: f calc.bias(f, polydeg, x))。我使用的整个代码: library(PolynomF) f <- function(x)
android - OpenCV4Android FaceRecognizer.predict(Mat src, int[] labels, double[] confidence) 与 OpenCV FaceRecognizer.predict(Mat src)
谁能帮我解决我的问题？我似乎无法从互联网上得到任何答案。我一直在寻找一整天。所以这是我的问题。我正在使用 opencv4android 2.4.10 和 Android Studio 作为我的 IDE
prediction - 如何从姓氏中推测一个人的国籍？
我可以使用哪种方法来根据姓氏来预测某人的国籍？我有大量的文字和作者姓氏。我想确定哪些语言是由拉丁语使用者撰写的，哪些文本是由以英语为母语的使用者撰写的，以便研究一组中的某些写作风格模式是否与另一组中
prediction - 如何使我的推荐引擎适应冷启动？
我很好奇克服“冷启动”问题的方法/途径是什么，当新用户或项目进入系统时，由于缺乏有关该新实体的信息，因此进行推荐是一个问题。我可以考虑做一些基于预测的推荐(例如性别、国籍等)。最佳答案您可以冷启
prediction - 评估零膨胀负二项式模型的性能
我正在使用零膨胀负二项式模型(包:pscl)对电影通过联系网络(基于电话数据)的传播进行建模 m1 我的变量是: 因变量: 扩散链的长度(计数 [0,36]) 自变量: 电影特征(虚拟变量和连续变量

首页

博学

6Ren·AI

商城

r - 插入符 - 使用 train()、predict() 和 resamples() 的不同结果