python - 计算多标签分类问题的ROC曲线、分类报告和混淆矩阵-6ren

python - 计算多标签分类问题的ROC曲线、分类报告和混淆矩阵

转载作者：行者123 更新时间：2023-12-04 12:59:21

27

4

我试图了解如何为我的多标签分类问题制作混淆矩阵和 ROC 曲线。我正在构建一个神经网络。
这是我的类(class):

mlb = MultiLabelBinarizer()
ohe = mlb.fit_transform(as_list)
# loop over each of the possible class labels and show them
for (i, label) in enumerate(mlb.classes_):
    print("{}. {}".format(i + 1, label))

[INFO] class labels:
1. class1
2. class2
3. class3
4. class4
5. class5
6. class6

我的标签被转换:

ohe
array([[0, 1, 0, 0, 1, 1],
       [0, 1, 1, 1, 1, 0],
       [1, 1, 1, 0, 1, 0],
       [0, 1, 1, 1, 0, 1],...]]

训练数据:

array([[[[ 1.93965047e+04,  8.49532852e-01],
         [ 1.93965047e+04,  8.49463479e-01],
         [ 1.93965047e+04,  8.49474722e-01],
         ...,

模型:

model.compile(loss="binary_crossentropy", optimizer=opt,metrics=["accuracy"])
H = model.fit(trainX, trainY, batch_size=BS,
    validation_data=(testX, testY),
    epochs=EPOCHS, verbose=1)

我能够获得百分比，但我对如何计算混淆矩阵或 ROC 曲线或获得分类报告有点无能为力。
以下是百分比:

proba = model.predict(testX)
idxs = np.argsort(proba)[::-1][:2]

for i in proba:
    print ('\n')
    for (label, p) in zip(mlb.classes_, i):
        print("{}: {:.2f}%".format(label, p * 100))

class1: 69.41%
class2: 76.41%
class3: 58.02%
class4: 63.97%
class5: 48.91%
class6: 58.28%

class1: 69.37%
class2: 76.42%
class3: 58.01%
class4: 63.92%
class5: 48.88%
class6: 58.26%

如果有人有一些关于如何做的提示或示例，我将不胜感激!先感谢您!

最佳答案

从 v0.21 开始，scikit-learn 包含一个多标签混淆矩阵；改编 docs 中的示例5个类(class):

import numpy as np
from sklearn.metrics import multilabel_confusion_matrix
y_true = np.array([[1, 0, 1, 0, 0],
                   [0, 1, 0, 1, 1],
                   [1, 1, 1, 0, 1]])
y_pred = np.array([[1, 0, 0, 0, 1],
                   [0, 1, 1, 1, 0],
                   [1, 1, 1, 0, 0]])

multilabel_confusion_matrix(y_true, y_pred)
# result:
array([[[1, 0],
        [0, 2]],

       [[1, 0],
        [0, 2]],

       [[0, 1],
        [1, 1]],

       [[2, 0],
        [0, 1]],

       [[0, 1],
        [2, 0]]])

平常的 classification_report也工作正常:

from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))
# result
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2
           1       1.00      1.00      1.00         2
           2       0.50      0.50      0.50         2
           3       1.00      1.00      1.00         1
           4       0.00      0.00      0.00         2

   micro avg       0.75      0.67      0.71         9
   macro avg       0.70      0.70      0.70         9
weighted avg       0.67      0.67      0.67         9
 samples avg       0.72      0.64      0.67         9

关于 ROC，您可以从 Plot ROC curves for the multilabel problem 中获取一些想法文档中的示例(虽然不太确定这个概念本身非常有用)。
混淆矩阵和分类报告需要硬类预测(如示例中所示)； ROC 需要将预测作为概率。
要将您的概率预测转换为硬类，您需要一个阈值。现在，通常(并且隐含地)将此阈值设为 0.5，即如果 y_pred > 0.5 则预测为 1 ，否则预测为 0。不过，情况并非总是如此，这取决于特定问题。一旦设置了这样的阈值，您就可以轻松地将概率预测转换为具有列表理解的硬类；这是一个简单的例子:

import numpy as np

y_prob = np.array([[0.9, 0.05, 0.12, 0.23, 0.78],
                   [0.11, 0.81, 0.51, 0.63, 0.34],
                   [0.68, 0.89, 0.76, 0.43, 0.27]])

thresh = 0.5

y_pred = np.array([[1 if i > thresh else 0 for i in j] for j in y_prob])

y_pred
# result:
array([[1, 0, 0, 0, 1],
       [0, 1, 1, 1, 0],
       [1, 1, 1, 0, 0]])

关于python - 计算多标签分类问题的ROC曲线、分类报告和混淆矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60857415/

27

4

0

文章推荐： Android挂起 Intent 恢复应用程序，而不启动 Activity

文章推荐： data-structures - 构造二叉搜索树的时间复杂度是多少？

r - 绘制多条 ROC 曲线的平均 ROC 曲线，R
我有一个包含 100 个样本的数据集，每个样本都有 195 个突变，具有相应的已知临床意义(“RealClass”)和根据某些预测工具的预测值(“PredictionValues”) 为了演示，这是一
machine-learning - Keras ROC 与 Scikit ROC 不同？
从下面的代码中，看起来使用 keras 和 scikit 评估 roc 实际上有所不同。有人知道解释吗？ import tensorflow as tf from keras.layers impor
使用 multiclass.roc 的 R 多类/多项式分类 ROC(包 ‘pROC’)
我很难理解 multiclass.roc 参数应该是什么样子。这是我的数据快照: > head(testing.logist$cut.rank) [1] 3 3 3 3 1 3 Levels: 1 2
ROC 曲线看起来不正确
我已经使用 ROCR 包绘制了 2 类问题的 ROC 曲线。根据我的理解，至少对于较小的数据集，曲线应该看起来像阶跃变化图。我的输入实际上很小，但我得到的曲线基本上看起来是直线。是因为 PROC 适合
r - 优化插入符号的灵敏度似乎仍然优化 ROC
我正在尝试使用 rpart 在插入符号中最大限度地提高模型选择的灵敏度。为此，我尝试复制此处给出的方法(向下滚动到使用用户定义函数 FourStat 的示例)caret's github page #
r - "ROC"指标不在结果集中
我正在尝试使用插入符包生成随机森林模型，使用 ROC 曲线下的面积作为训练指标，但我收到以下警告: Warning message: In train.default(x = TrainData, y
用于随机森林分类的 ROC 曲线
我在 R 平台中使用 randomForest 包进行分类任务。 rf_object<-randomForest(data_matrix, label_factor, cutoff=c(k,1-k))
R 插入符保留样本和测试集 ROC
我正在构建两个不同的分类器来预测二进制结果。然后我想通过使用 ROC 曲线及其下面积 (AUC) 来比较两个模型的结果。我将数据集分为训练集和测试集。在训练集上，我执行一种形式的交叉验证。从交叉验证
python - 如何计算多类交叉验证的平均 ROC
我最近在为我的项目使用 sklearn 时遇到困难。我想构建一个分类器并将我的数据分为六组。总样本量为 88 然后我将数据分成 train(66) 和 test(22)我完全按照 sklearn 文档
python - 用于多类分类的 ROC
我正在进行不同的文本分类实验。现在我需要计算每个任务的 AUC-ROC。对于二进制分类，我已经使用以下代码使其工作: scaler = StandardScaler(with_mean=False)
python - 绘制多类问题的 ROC 曲线
我正在尝试应用 sklearn 的想法 ROC extension to multiclass到我的数据集。我的每类 ROC 曲线看起来都找到了一条直线，取消显示曲线波动的 sklearn 示例。我
r - 如何为不同的插入符号训练模型绘制 AUC ROC？
这是一个代表 library(caret) library(dplyr) set.seed(88, sample.kind = "Rounding") mtcars % mutate(am = a
r - 从数据框中手动创建 ROC 曲线
我有以下概念问题，我无法理解。以下是调查数据示例，其中我有一个时间列，指示某人需要多长时间才能回答某个问题。现在，我感兴趣的是清洁量将如何根据此阈值发生变化，即如果我增加阈值会发生什么，如果我降低
c - 误报概率图和 ROC 曲线
如何为使用视频的对象检测应用绘制每个窗口的误报率与未命中率(或误报概率)和 ROC(接收器操作曲线)的图表？如何确定误报和命中的数量？一个例子是很有用。最佳答案它很简单。将所有真正 (H0) 值存
r - 从随机森林分类中绘制 ROC 曲线
我正在尝试绘制随机森林分类的 ROC 曲线。绘图有效，但我认为我绘制了错误的数据，因为生成的绘图只有一个点(准确性)。这是我使用的代码: set.seed(55) data.controls <
r - 使用插入符号中的提升从两种不同的算法绘制 ROC 曲线
我有如下两个模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <-
ROC 的 R 编码
我很难将 ROC 的示例命令转换为我的数据集。这是用于 pROC 包这是使用数据(aSAH)的例子 roc(aSAH$outcome, aSAH$s100b) roc(outcome ~ s100b
多类 kNN 中的 ROC
我试图在多类 knn 模型和数据集上运行一些 ROC 分析到目前为止，我有 kNN 模型的这段代码。它运作良好。X_train_new是一个包含 131 个数值变量(列)和 7210 个观测值的数据
classification - 过度拟合和 ROC 曲线
是否可以仅通过查看其 ROC 曲线来了解分类器是否过度拟合？我看到如果它的 AUC 太高(例如 98%)可能会过度拟合，但这也可能意味着分类器非常好。有没有办法区分这两种情况？最佳答案简短的回答:
r - 更改 ROC 图表的比例
在运行逻辑回归后，我使用以下代码绘制 ROC 曲线。 fit1 <- glm(formula=GB160M3~Behvscore, data=eflscr,family="binomial", na.

首页

博学

6Ren·AI

商城

python - 计算多标签分类问题的ROC曲线、分类报告和混淆矩阵