- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在阅读 this Rnews document from June 2004 ,以及第 33 页的文章 Programmers' Niche 介绍了一种绘制接收器操作特性曲线并对其进行优化的方法。
第一个代码片段很简单并且符合定义
drawROC.A <- function(T, D) {
cutpoints <- c(-Inf, sort(unique(T)), Inf)
sens <- sapply(cutpoints,
function(c) sum(D[T>c])/sum(D))
spec <- sapply(cutpoints,
function(c) sum((1-D)[T<=c]/sum(1-D)))
plot(1-spec, sens, type = "l")
}
然后作者说(经过我的少量修改),
There is a relatively simple optimization of the function that increases the speed substantially, though at the cost of requiring
T
to be a number, rather than just an object for which>
and<=
are defineddrawROC.B <- function(T, D){
DD <- table(-T, D)
sens <- cumsum(DD[ ,2]) / sum(DD[ ,2])
mspec <- cumsum(DD[ ,1]) / sum(DD[ ,1])
plot(mspec, sens, type="l")
}
我花了很长时间阅读优化版本,但卡在第一行:它看起来像负号 -
前面T
用于逆序求和,为什么呢?
困惑的是,我将两个函数生成的 ROC 绘制在一起,以检查结果是否相同。
左图由 drawROC.A
制作而右边的是 drawROC.B
的结果.乍一看并不完全相同,但仔细看,Y轴的范围不同,其实是同一个plot。
编辑:
现在我明白了 drawROC.B
的结果是什么是正确的(见下面我的回答),但我仍然不知道显着的性能提升来自哪里......
最佳答案
我想我已经明白了。 DD <- table(-T, D)
意思是倒序求和,这是因为我们计算的是Pr(T > c),而表的求和是统计T中小于等于当前元素的元素个数。
换句话说,这也可行,因为 Pr(T > c) = 1 - Pr(T <= c)。
drawROC.B <- function(T, D){
DD <- table(T, D)
sens <- 1 - cumsum(DD[ ,2])/sum(DD[ ,2])
mspec <- 1 - cumsum(DD[ ,1])/sum(DD[ ,1])
plot(mspec, sens, type="l")
}
顺便说一句,您可以使用它来将两个点 (0, 0) 和 (1, 1) 添加到 drawROC.B
的结果中.
drawROC.C <- function(T, D){
DD <- table(-T, D)
sens <- c(0, cumsum(DD[ ,2])/sum(DD[ ,2]), 1)
mspec <- c(0, cumsum(DD[ ,1])/sum(DD[ ,1]), 1)
plot(mspec, sens, type="l")
}
至于性能增益,请注意 drawROC.A
需要执行(渐近)unique(T) * length(T)
比较,而 drawROC.A
只需要 length(T)
构建表的操作和所有后续操作的成本都一样高。
关于r - 这种对 ROC 绘图的优化背后的基本原理是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55174784/
我有一个包含 100 个样本的数据集,每个样本都有 195 个突变,具有相应的已知临床意义(“RealClass”)和根据某些预测工具的预测值(“PredictionValues”) 为了演示,这是一
从下面的代码中,看起来使用 keras 和 scikit 评估 roc 实际上有所不同。有人知道解释吗? import tensorflow as tf from keras.layers impor
我很难理解 multiclass.roc 参数应该是什么样子。这是我的数据快照: > head(testing.logist$cut.rank) [1] 3 3 3 3 1 3 Levels: 1 2
我已经使用 ROCR 包绘制了 2 类问题的 ROC 曲线。根据我的理解,至少对于较小的数据集,曲线应该看起来像阶跃变化图。我的输入实际上很小,但我得到的曲线基本上看起来是直线。是因为 PROC 适合
我正在尝试使用 rpart 在插入符号中最大限度地提高模型选择的灵敏度。为此,我尝试复制此处给出的方法(向下滚动到使用用户定义函数 FourStat 的示例)caret's github page #
我正在尝试使用插入符包生成随机森林模型,使用 ROC 曲线下的面积作为训练指标,但我收到以下警告: Warning message: In train.default(x = TrainData, y
我在 R 平台中使用 randomForest 包进行分类任务。 rf_object<-randomForest(data_matrix, label_factor, cutoff=c(k,1-k))
我正在构建两个不同的分类器来预测二进制结果。然后我想通过使用 ROC 曲线及其下面积 (AUC) 来比较两个模型的结果。 我将数据集分为训练集和测试集。在训练集上,我执行一种形式的交叉验证。从交叉验证
我最近在为我的项目使用 sklearn 时遇到困难。我想构建一个分类器并将我的数据分为六组。总样本量为 88 然后我将数据分成 train(66) 和 test(22)我完全按照 sklearn 文档
我正在进行不同的文本分类实验。现在我需要计算每个任务的 AUC-ROC。对于二进制分类,我已经使用以下代码使其工作: scaler = StandardScaler(with_mean=False)
我正在尝试应用 sklearn 的想法 ROC extension to multiclass到我的数据集。我的每类 ROC 曲线看起来都找到了一条直线,取消显示曲线波动的 sklearn 示例。 我
这是一个代表 library(caret) library(dplyr) set.seed(88, sample.kind = "Rounding") mtcars % mutate(am = a
我有以下概念问题,我无法理解。 以下是调查数据示例,其中我有一个时间列,指示某人需要多长时间才能回答某个问题。 现在,我感兴趣的是清洁量将如何根据此阈值发生变化,即如果我增加阈值会发生什么,如果我降低
如何为使用视频的对象检测应用绘制每个窗口的误报率与未命中率(或误报概率)和 ROC(接收器操作曲线)的图表?如何确定误报和命中的数量?一个例子是很有用。 最佳答案 它很简单。将所有真正 (H0) 值存
我正在尝试绘制随机森林分类的 ROC 曲线。绘图有效,但我认为我绘制了错误的数据,因为生成的绘图只有一个点(准确性)。 这是我使用的代码: set.seed(55) data.controls <
我有如下两个模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <-
我很难将 ROC 的示例命令转换为我的数据集。这是用于 pROC 包 这是使用数据(aSAH)的例子 roc(aSAH$outcome, aSAH$s100b) roc(outcome ~ s100b
我试图在多类 knn 模型和数据集上运行一些 ROC 分析 到目前为止,我有 kNN 模型的这段代码。它运作良好。X_train_new是一个包含 131 个数值变量(列)和 7210 个观测值的数据
是否可以仅通过查看其 ROC 曲线来了解分类器是否过度拟合?我看到如果它的 AUC 太高(例如 98%)可能会过度拟合,但这也可能意味着分类器非常好。有没有办法区分这两种情况? 最佳答案 简短的回答:
在运行逻辑回归后,我使用以下代码绘制 ROC 曲线。 fit1 <- glm(formula=GB160M3~Behvscore, data=eflscr,family="binomial", na.
我是一名优秀的程序员,十分优秀!