gpt4 book ai didi

python - 计算多标签分类问题的ROC曲线、分类报告和混淆矩阵

转载 作者:行者123 更新时间:2023-12-04 12:59:21 27 4
gpt4 key购买 nike

我试图了解如何为我的多标签分类问题制作混淆矩阵和 ROC 曲线。我正在构建一个神经网络。
这是我的类(class):

mlb = MultiLabelBinarizer()
ohe = mlb.fit_transform(as_list)
# loop over each of the possible class labels and show them
for (i, label) in enumerate(mlb.classes_):
print("{}. {}".format(i + 1, label))

[INFO] class labels:
1. class1
2. class2
3. class3
4. class4
5. class5
6. class6

我的标签被转换:
ohe
array([[0, 1, 0, 0, 1, 1],
[0, 1, 1, 1, 1, 0],
[1, 1, 1, 0, 1, 0],
[0, 1, 1, 1, 0, 1],...]]

训练数据:
array([[[[ 1.93965047e+04,  8.49532852e-01],
[ 1.93965047e+04, 8.49463479e-01],
[ 1.93965047e+04, 8.49474722e-01],
...,

模型:
model.compile(loss="binary_crossentropy", optimizer=opt,metrics=["accuracy"])
H = model.fit(trainX, trainY, batch_size=BS,
validation_data=(testX, testY),
epochs=EPOCHS, verbose=1)

我能够获得百分比,但我对如何计算混淆矩阵或 ROC 曲线或获得分类报告有点无能为力。
以下是百分比:
proba = model.predict(testX)
idxs = np.argsort(proba)[::-1][:2]

for i in proba:
print ('\n')
for (label, p) in zip(mlb.classes_, i):
print("{}: {:.2f}%".format(label, p * 100))

class1: 69.41%
class2: 76.41%
class3: 58.02%
class4: 63.97%
class5: 48.91%
class6: 58.28%

class1: 69.37%
class2: 76.42%
class3: 58.01%
class4: 63.92%
class5: 48.88%
class6: 58.26%

如果有人有一些关于如何做的提示或示例,我将不胜感激!先感谢您!

最佳答案

从 v0.21 开始,scikit-learn 包含一个多标签混淆矩阵;改编 docs 中的示例5个类(class):

import numpy as np
from sklearn.metrics import multilabel_confusion_matrix
y_true = np.array([[1, 0, 1, 0, 0],
[0, 1, 0, 1, 1],
[1, 1, 1, 0, 1]])
y_pred = np.array([[1, 0, 0, 0, 1],
[0, 1, 1, 1, 0],
[1, 1, 1, 0, 0]])

multilabel_confusion_matrix(y_true, y_pred)
# result:
array([[[1, 0],
[0, 2]],

[[1, 0],
[0, 2]],

[[0, 1],
[1, 1]],

[[2, 0],
[0, 1]],

[[0, 1],
[2, 0]]])
平常的 classification_report也工作正常:
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))
# result
precision recall f1-score support

0 1.00 1.00 1.00 2
1 1.00 1.00 1.00 2
2 0.50 0.50 0.50 2
3 1.00 1.00 1.00 1
4 0.00 0.00 0.00 2

micro avg 0.75 0.67 0.71 9
macro avg 0.70 0.70 0.70 9
weighted avg 0.67 0.67 0.67 9
samples avg 0.72 0.64 0.67 9
关于 ROC,您可以从 Plot ROC curves for the multilabel problem 中获取一些想法文档中的示例(虽然不太确定这个概念本身非常有用)。
混淆矩阵和分类报告需要硬类预测(如示例中所示); ROC 需要将预测作为概率。
要将您的概率预测转换为硬类,您需要一个阈值。现在,通常(并且隐含地)将此阈值设为 0.5,即如果 y_pred > 0.5 则预测为 1 ,否则预测为 0。不过,情况并非总是如此,这取决于特定问题。一旦设置了这样的阈值,您就可以轻松地将概率预测转换为具有列表理解的硬类;这是一个简单的例子:
import numpy as np

y_prob = np.array([[0.9, 0.05, 0.12, 0.23, 0.78],
[0.11, 0.81, 0.51, 0.63, 0.34],
[0.68, 0.89, 0.76, 0.43, 0.27]])

thresh = 0.5

y_pred = np.array([[1 if i > thresh else 0 for i in j] for j in y_prob])

y_pred
# result:
array([[1, 0, 0, 0, 1],
[0, 1, 1, 1, 0],
[1, 1, 1, 0, 0]])

关于python - 计算多标签分类问题的ROC曲线、分类报告和混淆矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60857415/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com