r - 插入符号包中使用预测概率的自定义性能函数-6ren

r - 插入符号包中使用预测概率的自定义性能函数

转载作者：行者123 更新时间：2023-12-05 00:56:14

25

4

This SO post是关于在 caret 包中使用自定义性能测量功能。您想找到最佳预测模型，因此您构建了多个模型并通过计算从比较观察值和预测值中得出的单个指标来比较它们。有默认函数来计算这个指标，但您也可以定义自己的指标函数。此自定义函数必须以 obs 和预测值作为输入。

在分类问题(假设只有两个类)中，预测值为 0 或 1。但是，我需要评估的也是模型中计算的概率。有什么方法可以实现吗？

原因是在某些应用程序中，您需要知道 1 预测实际上是 99% 的概率还是 51% 的概率 - 而不仅仅是预测是 1 还是 0。

谁能帮忙？

编辑好的，所以让我试着解释得更好一点。在 5.5.5 (Alternate Performance Metrics) 下的 caret 包的文档中，有描述如何使用您自己的自定义性能函数，如下所示

fitControl <- trainControl(method = "repeatedcv",
                           number = 10,
                           repeats = 10,
                           ## Estimate class probabilities
                           classProbs = TRUE,
                           ## Evaluate performance using 
                           ## the following function
                           summaryFunction = twoClassSummary)

twoClassSummary 是本示例中的自定义性能函数。此处提供的函数需要将带有 obs 和 pred 的数据帧或矩阵作为输入。这就是重点 - 我想使用一个函数，它不需要观察和预测，而是观察和预测probability。

还有一件事:

也欢迎来自其他软件包的解决方案。我唯一不想要的是“这就是你编写自己的交叉验证函数的方式。”

最佳答案

当您在 trainControl 中指定 classProbs = TRUE 时，Caret 确实支持将类概率传递给自定义汇总函数。在这种情况下，创建自定义汇总函数时的 data 参数将有另外两列命名为包含每个类概率的类。这些类的名称将在 lev 参数中，该参数是长度为 2 的向量。

查看示例:

library(caret)
library(mlbench)
data(Sonar)

自定义汇总LogLoss:

LogLoss <- function (data, lev = NULL, model = NULL){ 
  obs <- data[, "obs"] #truth
  cls <- levels(obs) #find class names
  probs <- data[, cls[2]] #use second class name to extract probs for 2nd clas
  probs <- pmax(pmin(as.numeric(probs), 1 - 1e-15), 1e-15) #bound probability, this line and bellow is just logloss calculation, irrelevant for your question 
  logPreds <- log(probs)        
  log1Preds <- log(1 - probs)
  real <- (as.numeric(data$obs) - 1)
  out <- c(mean(real * logPreds + (1 - real) * log1Preds)) * -1
  names(out) <- c("LogLoss") #important since this is specified in call to train. Output can be a named vector of multiple values. 
  out
}

fitControl <- trainControl(method = "cv",
                           number = 5,
                           classProbs = TRUE,
                           summaryFunction = LogLoss)


fit <-  train(Class ~.,
             data = Sonar,
             method = "rpart", 
             metric = "LogLoss" ,
             tuneLength = 5,
             trControl = fitControl,
             maximize = FALSE) #important, depending on calculated performance measure

fit
#output
CART 

208 samples
 60 predictor
  2 classes: 'M', 'R' 

No pre-processing
Resampling: Cross-Validated (5 fold) 
Summary of sample sizes: 166, 166, 166, 167, 167 
Resampling results across tuning parameters:

  cp          LogLoss  
  0.00000000  1.1220902
  0.01030928  1.1220902
  0.05154639  1.1017268
  0.06701031  1.0694052
  0.48453608  0.6405134

LogLoss was used to select the optimal model using the smallest value.
The final value used for the model was cp = 0.4845361.

或者使用包含类级别的 lev 参数并定义一些错误检查

LogLoss <- function (data, lev = NULL, model = NULL){ 
 if (length(lev) > 2) {
        stop(paste("Your outcome has", length(lev), "levels. The LogLoss() function isn't appropriate."))
    }
  obs <- data[, "obs"] #truth
  probs <- data[, lev[2]] #use second class name
  probs <- pmax(pmin(as.numeric(probs), 1 - 1e-15), 1e-15) #bound probability
  logPreds <- log(probs)        
  log1Preds <- log(1 - probs)
  real <- (as.numeric(data$obs) - 1)
  out <- c(mean(real * logPreds + (1 - real) * log1Preds)) * -1
  names(out) <- c("LogLoss")
  out
}

查看插入符号书的这一部分:https://topepo.github.io/caret/model-training-and-tuning.html#metrics

了解更多信息。如果您打算使用插入符号，即使您不擅长阅读，也值得一读。

关于r - 插入符号包中使用预测概率的自定义性能函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62658672/

25

4

0

文章推荐： github - 如何在 vscode 中禁用 github 登录

文章推荐： github - 如何自托管使用 GitHub Pages 阅读文档

文章推荐： python - Python中基于移动均值的异常值检测

R 预测 - 如何仅绘制子集？
我正在使用 R 预测包拟合模型，如下所示: fit <- auto.arima(df) plot(forecast(fit,h=200)) 打印原始数据框和预测。当 df 相当大时，这
r - 预测-回归的神经网络预测相同的值
我正在尝试预测自有住房的中位数，这是一个行之有效的例子，给出了很好的结果。 https://heuristically.wordpress.com/2011/11/17/using-neural-ne
r - 预测()函数的类型参数
type="class"函数中的type="response"和predict有什么区别？例如： predict(modelName, newdata=testData, type = "class
python - 如何以图像的形式保存CNN模型的输出(预测)？
我有一个名为 Downloaded 的文件夹，其中包含经过训练的 CNN 模型必须对其进行预测的图像。下面是导入图片的代码: import os images = [] for filename i
区间内的 R 预测
关于预测的快速问题。我尝试预测的值是 0 或 1(它设置为数字，而不是因子)，因此当我运行随机森林时: fit , data=trainData, ntree=50) 并预测: pred, data
python - 预测，(找到正确的模型)
使用 Python，我尝试使用历史销售数据来预测产品的 future 销售数量。我还试图预测各组产品的这些计数。例如，我的专栏如下所示: Date Sales_count Department It
R SVM 预测
我是 R 新手，所以请帮助我了解问题所在。我试图预测一些数据，但预测函数返回的对象(这是奇怪的类(因子))包含低数据。测试集大小为 5886 obs。 160 个变量，当预测对象长度为 110 时..
java - 预测/识别电话号码的国家代码
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
python - 您如何从训练有素的网络对给定输入进行预测(预测)？
下面是我的神经网络代码，有 3 个输入和 1 个隐藏层和 1 个输出: #Data ds = SupervisedDataSet(3,1) myfile = open('my_file.csv','r
php - 预测/纠正全文搜索
我正在开发一个 Web 应用程序，它具有全文搜索功能，可以正常运行。我想对此进行改进并向其添加预测/更正功能，这意味着如果用户输入错误或结果为 0，则会查询该输入的更正版本，而不是查询结果。基本上类似
python - 具有单一分类特征的 LSTM 预测
我对时间序列还很陌生。这是我正在处理的数据集: Date Price Location 0 2012-01-01 1771.0
sequence - 如何使用隐马尔可夫模型进行 future 预测
我有许多可变长度的序列。对于这些，我想训练一个隐马尔可夫模型，稍后我想用它来预测(部分)序列的可能延续。到目前为止，我已经找到了两种使用 HMM 预测 future 的方法: 1) 幻觉延续并获得该延
映射到标签的 Tensorflow Serving 预测
我正在使用 TensorFlow 服务提供初始模型。我在 Azure Kubernetes 上这样做，所以不是通过更标准和有据可查的谷歌云。无论如何，这一切都在起作用，但是我感到困惑的是预测作为浮点
r - AWS 预测。项目数量的观察值太少
我正在尝试使用 Amazon Forecast 进行一些测试。我现在尝试了两个不同的数据集，它们看起来像这样: 13,2013-03-31 19:25:00,93.10999 14,2013-03-3
python - 预测 ufunc 输出的内存布局
使用 numpy ndarray大多数时候我们不需要担心内存布局的问题，因为结果并不依赖于它。除非他们这样做。例如，考虑这种设置 3x2 矩阵对角线的稍微过度设计的方法 >>> a = np.zer
R:如何在同一时间序列上绘制多个 ARIMA 预测
我想在同一个地 block 上用不同颜色绘制多个预测，但是，比例尺不对。我对任何其他方法持开放态度。可重现的例子: require(forecast) # MAKING DATA data
r - 通过分类变量和连续变量的交互可视化 GLMM 预测
我正在 R 中使用 GLMM，其中混合了连续变量和 calcategories 变量，并具有一些交互作用。我使用 MuMIn 中的 dredge 和 model.avg 函数来获取每个变量的效果估计。
output - 在命令行中导出 Weka 预测
我能够在 GUI 中成功导出分类器错误，但无法在命令行中执行此操作。有什么办法可以在命令行上完成此操作吗？我使用的是 Weka 3.6.x。在这里，您可以右键单击模型，选择“可视化分类器错误”并从那
R:如何在同一时间序列上绘制多个 ARIMA 预测
我想在同一个地 block 上用不同颜色绘制多个预测，但是，比例尺不对。我对任何其他方法持开放态度。可重现的例子: require(forecast) # MAKING DATA data
r - 预测 R 中的内存使用情况
我从 UCI 机器学习数据集库下载了一个巨大的文件。 (~300mb)。有没有办法在将数据集加载到 R 内存之前预测加载数据集所需的内存？ Google 搜索了很多，但我到处都能找到如何使用 R-p

首页

博学

6Ren·AI

商城

r - 插入符号包中使用预测概率的自定义性能函数