r - 如何在使用 pRoc 包进行 ROC 分析后获得 p 值？-6ren

r - 如何在使用 pRoc 包进行 ROC 分析后获得 p 值？

转载作者：行者123 更新时间：2023-12-04 01:25:32

28

4

对一组数据进行ROC分析后，如何计算p值？使用相同的统计数据，我看到可以在 SPSS 中输出 p 值。
示例代码如下:

library(pROC)
data(aSAH)
head(aSAH)
#    gos6 outcome gender age wfns s100b  ndka
# 29    5    Good Female  42    1  0.13  3.01
# 30    5    Good Female  37    1  0.14  8.54
# 31    5    Good Female  42    1  0.10  8.09
# 32    5    Good Female  27    1  0.04 10.42
# 33    1    Poor Female  42    3  0.13 17.40
# 34    1    Poor   Male  48    2  0.10 12.75

(rr <- roc(aSAH$outcome, aSAH$s100b, plot=T))
# Setting levels: control = Good, case = Poor
# Setting direction: controls < cases
# 
# Call:
#   roc.default(response = aSAH$outcome, predictor = aSAH$s100b,     plot = F)
# 
# Data: aSAH$s100b in 72 controls (aSAH$outcome Good) < 41 cases (aSAH$outcome Poor).
# Area under the curve: 0.7314

编辑:

SPSS中计算的p值是0.000007，但是p值是通过 verification::roc.area()计算出来的是0.000022546，是 roc.area()的计算方法和SPSS不一致？

levels(aSAH$outcome) <- c(0, 1)
library(verification)
ra <- roc.area(as.numeric(as.vector(aSAH$outcome)), rr$predictor)
ra$p.value
# [1] 0.00002254601

最佳答案

无法在 pROC::roc 中获取 p 值, 您可以设置选项 ci=TRUE来获得置信区间。 pROC::roc产生一个不可见的输出，你可以通过将它分配给一个对象来获取它。

library(pROC)
data(aSAH)
rr <- pROC::roc(aSAH$outcome, aSAH$s100b, ci=TRUE)

使用 str(rr)揭示了如何访问 ci :

rr$ci
# 95% CI: 0.6301-0.8326 (DeLong)

所以你已经有了一个置信区间。

此外，您还可以使用 pROC::var 获得方差。 *，您可以从中手动计算标准误差。

(v <- var(rr))
# [1] 0.002668682
b <- rr$auc - .5
se <- sqrt(v)
(se <- sqrt(v))
# [1] 0.05165929

* 请注意，还有一个引导选项 pROC::var(rr, method="bootstrap") .

这与Stata计算的相同，

# . roctab outcome_num s100b, summary
# 
# ROC                    -Asymptotic Normal--
#   Obs       Area     Std. Err.      [95% Conf. Interval]
# ------------------------------------------------------------
#   113     0.7314       0.0517        0.63012     0.83262
# .
# . display r(se)
# .05165929

哪里 Stata Base Reference Manual 14 - roctab (p. 2329) 指出:

By default, roctab calculates the standard error for the area under the curve by using an algorithm suggested by DeLong, DeLong, and Clarke-Pearson (1988) and asymptotic normal confidence intervals.

一旦我们有了标准误差，我们还可以根据 z 分布 ( Ref. ) 计算 p 值。

z <- (b / se)
2 * pt(-abs(z), df=Inf)  ## two-sided test
# [1] 0.000007508474

此 p 值接近您的 SPSS 值，因此它很可能是使用类似于 Stata 的算法计算得出的(比较: IBM SPSS Statistics 24 Algorithms ，第 888:889 页)。

然而， ROC 分析的 p 值的计算可能存在争议。例如。您在编辑中显示的方法(另请参见下面的第一个链接)基于 Mann-Whitney U 统计。

在决定哪种方法最适合您的分析之前，您可能需要更深入地研究该主题。我在这里为您提供一些阅读建议:

Does AUC/ROC curve return a p-value? (Cross Validated)

Which standard error formula for the area under the ROC curve should I use? (Cross Validated)

Differences between cross validation and bootstrapping to estimate the standard error of the AUC of a given ROC curve (Cross Validated)

Comparison of Three Methods for Estimating the Standard Error of the Area Under the Curve in ROC Analysis of Quantitative Data (Hajian-Tilaki and Hanley 2002)

Testing Statistical Significance of the Area under aReceiving Operating Characteristics Curve forRepeated Measures Design with Bootstrapping (Liu et al. 2005)

关于r - 如何在使用 pRoc 包进行 ROC 分析后获得 p 值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61997453/

28

4

0

文章推荐： Xamarin iOS Firebase native 链接失败

文章推荐： c - 在理解 C 中的内存分配时遇到了一些麻烦

文章推荐： c# - 从 .Net 应用程序使用 Azure Monitor Rest API

r - 绘制多条 ROC 曲线的平均 ROC 曲线，R
我有一个包含 100 个样本的数据集，每个样本都有 195 个突变，具有相应的已知临床意义(“RealClass”)和根据某些预测工具的预测值(“PredictionValues”) 为了演示，这是一
machine-learning - Keras ROC 与 Scikit ROC 不同？
从下面的代码中，看起来使用 keras 和 scikit 评估 roc 实际上有所不同。有人知道解释吗？ import tensorflow as tf from keras.layers impor
使用 multiclass.roc 的 R 多类/多项式分类 ROC(包 ‘pROC’)
我很难理解 multiclass.roc 参数应该是什么样子。这是我的数据快照: > head(testing.logist$cut.rank) [1] 3 3 3 3 1 3 Levels: 1 2
ROC 曲线看起来不正确
我已经使用 ROCR 包绘制了 2 类问题的 ROC 曲线。根据我的理解，至少对于较小的数据集，曲线应该看起来像阶跃变化图。我的输入实际上很小，但我得到的曲线基本上看起来是直线。是因为 PROC 适合
r - 优化插入符号的灵敏度似乎仍然优化 ROC
我正在尝试使用 rpart 在插入符号中最大限度地提高模型选择的灵敏度。为此，我尝试复制此处给出的方法(向下滚动到使用用户定义函数 FourStat 的示例)caret's github page #
r - "ROC"指标不在结果集中
我正在尝试使用插入符包生成随机森林模型，使用 ROC 曲线下的面积作为训练指标，但我收到以下警告: Warning message: In train.default(x = TrainData, y
用于随机森林分类的 ROC 曲线
我在 R 平台中使用 randomForest 包进行分类任务。 rf_object<-randomForest(data_matrix, label_factor, cutoff=c(k,1-k))
R 插入符保留样本和测试集 ROC
我正在构建两个不同的分类器来预测二进制结果。然后我想通过使用 ROC 曲线及其下面积 (AUC) 来比较两个模型的结果。我将数据集分为训练集和测试集。在训练集上，我执行一种形式的交叉验证。从交叉验证
python - 如何计算多类交叉验证的平均 ROC
我最近在为我的项目使用 sklearn 时遇到困难。我想构建一个分类器并将我的数据分为六组。总样本量为 88 然后我将数据分成 train(66) 和 test(22)我完全按照 sklearn 文档
python - 用于多类分类的 ROC
我正在进行不同的文本分类实验。现在我需要计算每个任务的 AUC-ROC。对于二进制分类，我已经使用以下代码使其工作: scaler = StandardScaler(with_mean=False)
python - 绘制多类问题的 ROC 曲线
我正在尝试应用 sklearn 的想法 ROC extension to multiclass到我的数据集。我的每类 ROC 曲线看起来都找到了一条直线，取消显示曲线波动的 sklearn 示例。我
r - 如何为不同的插入符号训练模型绘制 AUC ROC？
这是一个代表 library(caret) library(dplyr) set.seed(88, sample.kind = "Rounding") mtcars % mutate(am = a
r - 从数据框中手动创建 ROC 曲线
我有以下概念问题，我无法理解。以下是调查数据示例，其中我有一个时间列，指示某人需要多长时间才能回答某个问题。现在，我感兴趣的是清洁量将如何根据此阈值发生变化，即如果我增加阈值会发生什么，如果我降低
c - 误报概率图和 ROC 曲线
如何为使用视频的对象检测应用绘制每个窗口的误报率与未命中率(或误报概率)和 ROC(接收器操作曲线)的图表？如何确定误报和命中的数量？一个例子是很有用。最佳答案它很简单。将所有真正 (H0) 值存
r - 从随机森林分类中绘制 ROC 曲线
我正在尝试绘制随机森林分类的 ROC 曲线。绘图有效，但我认为我绘制了错误的数据，因为生成的绘图只有一个点(准确性)。这是我使用的代码: set.seed(55) data.controls <
r - 使用插入符号中的提升从两种不同的算法绘制 ROC 曲线
我有如下两个模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <-
ROC 的 R 编码
我很难将 ROC 的示例命令转换为我的数据集。这是用于 pROC 包这是使用数据(aSAH)的例子 roc(aSAH$outcome, aSAH$s100b) roc(outcome ~ s100b
多类 kNN 中的 ROC
我试图在多类 knn 模型和数据集上运行一些 ROC 分析到目前为止，我有 kNN 模型的这段代码。它运作良好。X_train_new是一个包含 131 个数值变量(列)和 7210 个观测值的数据
classification - 过度拟合和 ROC 曲线
是否可以仅通过查看其 ROC 曲线来了解分类器是否过度拟合？我看到如果它的 AUC 太高(例如 98%)可能会过度拟合，但这也可能意味着分类器非常好。有没有办法区分这两种情况？最佳答案简短的回答:
r - 更改 ROC 图表的比例
在运行逻辑回归后，我使用以下代码绘制 ROC 曲线。 fit1 <- glm(formula=GB160M3~Behvscore, data=eflscr,family="binomial", na.

首页

博学

6Ren·AI

商城

r - 如何在使用 pRoc 包进行 ROC 分析后获得 p 值？