python - 多标签混淆矩阵-6ren

python - 多标签混淆矩阵

转载作者：行者123 更新时间：2023-12-01 07:14:37

25

4

我正在对来自分类器的实际数据和预测数据进行多标签分类。实际数据由三个类(c1、c2 和 c3)组成，同样，预测数据也由三个类(c1、c2 和 c3)组成。数据如下

Actual_data     Predicted_data
c1 c2 c3         c1 c2 c3
1  1  0          1  1  1
1  1  0          1  0  1
1  0  1          0  1  1
0  1  1          1  0  0
1  0  0          1  1  0
1  1  1          1  0  1

在多标签分类中，一份文档可能属于多个类别。在上面的数据中，1代表文档属于特定类，0代表文档不属于特定类。

Actual_data 的第一行表示文档属于类 c1 和 c2，不属于类 c3。同样，predicted_data 的第一行表示文档属于类 c1、c2 和 c3。

最初，我使用 R 编程来查找实际数据和预测数据之间的混淆矩阵。我将这些数据框保存在 y_actual 和 y_predict 中。

y_actual<-as.matrix(Actual_data)
y_predict<-as.matrix(Predicted_data)
xtab<-table(y_actual,y_predict)

输出xtab是

            y_predict
 y_actual     0 1
            0 1 5
            1 5 7

然后我使用 R 的插入符包创建了混淆矩阵，如下所示

library(caret) 
confusionMatrix(xtab)
Confusion Matrix and Statistics
                   y_predict
           y_actual 0 1
                  0 1 5
                  1 5 7

               Accuracy : 0.4444          
                 95% CI : (0.2153, 0.6924)
     No Information Rate : 0.6667          
     P-Value [Acc > NIR] : 0.9856          

              Kappa : -0.25           
 Mcnemar's Test P-Value : 1.0000          

            Sensitivity : 0.16667         
            Specificity : 0.58333         
         Pos Pred Value : 0.16667         
         Neg Pred Value : 0.58333         
             Prevalence : 0.33333         
         Detection Rate : 0.05556         
   Detection Prevalence : 0.33333         
      Balanced Accuracy : 0.37500         

       'Positive' Class : 0

在这种情况下，我没有得到多标签混淆矩阵，而是得到了二进制标签混淆矩阵。我想要一个混淆矩阵，其中 y-实际和 y-预测中包含 c1,c2,c3，而不是 y-实际和 y-预测中的 0,1。

然后我在互联网上搜索，utiml包用于R中的多标签分类，但没有提供所需的输出。然后我尝试了python的scikit包进行多标签分类，代码如下。

import numpy as np
from sklearn.metrics import multilabel_confusion_matrix
y_actual = np.array([[1, 1, 0],
                     [1, 1, 0],
                     [1, 0, 1],
                     [0, 1, 1],
                     [1, 0, 0],
                     [1, 1, 1]])
y_predict = np.array([[1, 1, 1],
                      [1, 0, 1],
                      [0, 1, 1],
                      [1, 0, 0],
                      [1, 1, 0],
                      [1, 0, 1]])
matrix = multilabel_confusion_matrix(y_actual, y_predict)
print(matrix)
print(classification_report(y_actual,y_predict))

程序的输出是

    [[[0 1]
      [1 4]]

    [[0 2]
      [3 1]]

    [[1 2]
      [1 2]]]
              precision    recall  f1-score   support

           0       0.80      0.80      0.80         5
           1       0.33      0.25      0.29         4
           2       0.50      0.67      0.57         3

   micro avg       0.58      0.58      0.58        12
   macro avg       0.54      0.57      0.55        12
weighted avg       0.57      0.58      0.57        12
 samples avg       0.53      0.61      0.54        12

在这种情况下，我也没有明智地获取输出标签。任何人都可以帮助我在任何平台(R编程、Python或weka)中需要使用哪种包来获取上述实际数据和预测数据的多标签混淆矩阵。在输出中，y_actual 和 y_predict 的 c1、c2 和 c3 的混淆矩阵需要是 3*3 矩阵。

                    y_predict
    y_actual       c1 c2 c3
                c1 4
                c2    1
                c3       2

这里的对角线元素表明它实际上属于 c1，并且分类器预测它属于 c1。 c2 和 c3 也类似。我的问题是如何获取混淆矩阵的其他值，因为它是多标签分类。这个问题不是多类分类问题，而是多标签分类问题。

最佳答案

一种解决方案是更改数据的表示方式，使其在混淆矩阵方面符合 caret 或 sklearn 的预期。如果您认为混淆矩阵中的每个单元代表一个离散类预测(即“对于这个类，我们预测这个，但我们实际上看到这个”)，那么您可以看到没有办法实际构造这样的矩阵对于您的示例，其中类可以同时采用值。

考虑到这一点，在您的示例中，您实际上没有三个独立的类别 - 您有 8 个。

这意味着对于每一行观察，考虑到存在的三个分类值，您的数据点可能会呈现:

none of the categories
only c1
c1&c2
c1&c3
only c2
c2&c3
only c3
all categories

您需要做的就是向数据框中添加一个新列，重新编码您的三个现有目标列，以便新列采用 1 或 8 个值来指示这些组合中的每一个。

以下是解决方案的一个示例:

#Recreating your data

Actual_data <- cbind(c(1, 1, 1, 0, 1, 1),
                     c(1, 1, 0, 1, 0, 1),
                     c(0, 0, 1, 1, 0, 1)
)

colnames(Actual_data) <- c("c1", "c2", "c3")

Predicted_data <- cbind(c(1, 1, 0, 1, 1, 1),
                        c(1, 0, 1, 0, 1, 0),
                        c(1, 1, 1, 0, 0, 1)
)

colnames(Predicted_data) <- c("c1", "c2", "c3")

#To make it easy to recode everything, we can convert these two objects into dataframes:

Predicted_data <-as.data.frame(Predicted_data)
Actual_data <- as.data.frame(Actual_data)

#Next, we make a simple function that goes through each row and recodes the class 
#combinations to a distinct category

set_class_combinations <- function(df){
    df$target <- 0
    for (i in nrow(df)){
        df$target[df$c1 == 0 & df$c2 == 0 & df$c3 == 0] <- 1
        df$target[df$c1 == 1 & df$c2 == 0 & df$c3 == 0] <- 2
        df$target[df$c1 == 1 & df$c2 == 1 & df$c3 == 0] <- 3
        df$target[df$c1 == 1 & df$c2 == 0 & df$c3 == 1] <- 4
        df$target[df$c1 == 0 & df$c2 == 1 & df$c3 == 0] <- 5
        df$target[df$c1 == 0 & df$c2 == 1 & df$c3 == 1] <- 6
        df$target[df$c1 == 0 & df$c2 == 0 & df$c3 == 1] <- 7
        df$target[df$c1 == 1 & df$c2 == 1 & df$c3 == 1] <- 8
    }
    return(df)
}

#With the function, we can add a new "target" column to our respective dataframes

Predicted_data <- set_class_combinations(Predicted_data)
Actual_data <- set_class_combinations(Actual_data)

#As your example does not include all available combinations, we just need to ensure that we 
#account for this when we set the factor levels (1 through 8) and call the `confusionMatrix` function

cm <- confusionMatrix(factor(Predicted_data$target, levels = 1:8), factor(Actual_data$target, levels = 1:8))

print(cm)

关于python - 多标签混淆矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58037930/

25

4

0

文章推荐： java - 如何将两个数组链接在一起

文章推荐： python - cx_卡住 : LookupError: unknown encoding: cp437

java - 与 JAX-RS 混淆，Jersey 与 JAX-RS 混淆
我真的很困惑。我已经尝试使用带有 tomcat 的 Jax-rs 并使用所有注释，我能够使用 url 调用我的服务。因此，如果没有 Jax-rs，我可以简单地拥有一个 servlet 并调用我的服务。
BAML 混淆
是否有任何工具/商业混淆器可以混淆 WPF 控件中的 BAML 资源？如果没有，就 IP 保护而言，这是一段艰难的时期，因为黑客可以通过使用 BAML 到 XAML 转换器轻松查看 BAML 资源。
COBOL 混淆
嘿大家。我在尝试使用 COBOL 在 zOS 环境中解决的编码项目中遇到了一些麻烦。我需要读入一个文件并将它们放入索引表中(我知道将少于 90 条记录)。让我感到困扰的是，我们受到项目参数的约束，以
Java线程join()混淆
我试图按照这个例子来理解 join() 方法: class PrintDemo { public void printCount() { try { for(int
Java编译器自动重命名参数(混淆)
当我编译我正在编写的代码，然后在 JD Gui 中查看时，方法显示带有如下标题: public void growSurface(Random paramRandom, int paramInt1,
Android库项目——混淆
我正在为重新分发准备 Android 库，它的代码必须进行混淆处理。我已经阅读了有关此主题的一些内容，并且决定使用 Android Library Project。它将作为 jar 分发(自动在/bi
F# MSIL 混淆
两个混淆相关的问题: 1) 是否有任何工具可以将 F# 从 MSIL 目标形式反汇编回其源形式或接近它的形式？这不是通过默默无闻来实现安全性的尝试，但我想保护某些源代码免遭“盗窃”。 2) 我简要地查
r - MCMClogit 混淆
谁能向我解释为什么 simulatedCase <- rbinom(100,1,0.5) simDf <- data.frame(CASE = simulatedCase) posterior_m0
.NET AppDomain 混淆
我一直无法找到关于使用 AppDomains 时发生的事情的非常清楚的描述，所以希望有人能够启发我。我有一个简单的测试程序(基本上是扯掉了 MSDN example ): using System;
git rebase 混淆
假设我有 2 个分支topic和 master如果我在 topic分支，然后运行 git rebase master它是 rebase master 还是 rebase 主题分支？做 git r
c# - 线程同步被锁(this)混淆
我有一个类(class): public class LockTest { public void LockThis() { lock (this)
javascript - AngularJS 混淆
我正在尝试最小化/混淆我的 Angular 代码，但遇到了问题。我在这里阅读“缩小说明”http://docs.angularjs.org/tutorial/step_05但我定义我的 Control
Javascript float 混淆
我遇到了一些困惑的操作。 var a = 0.1; var b = 0.2; var c = 0.3; console.log(a); // 0.1 console.log(b); // 0.2 co
JavaScript 下拉列表不会在点击时关闭，混淆？
感谢您查看我的帖子 - 我正在尝试弄清楚如何在单击链接时关闭此下拉菜单，但我的 JavaScript 技能非常缺乏，而且代码似乎很困惑。这是 HTML:
encryption - 混淆、散列和加密之间有什么区别？
混淆、哈希和加密之间有什么区别？这是我的理解: 哈希是一种单向算法；无法逆转混淆与加密类似，但不需要任何“ secret ”即可理解(ROT13 就是一个例子) 加密是可逆的，但需要“ secre
变量之间的 Perl 混淆
我有以下代码 my $content = $response->content; $content =~ /username=([\s\S]+?)&/; my $username = $1; prin
dynamic - 匿名类型列表和动态...混淆
我在 .NET 中发现了一些与我预期的有点不同的东西。我粘贴的代码没有意义，但它是我拥有的一个复杂得多的函数的浓缩版。我实际上是在获取匿名类型信息作为参数(尚未创建匿名类型的实例)，我需要创建该类型的
JavaFX Proguard 混淆
我正在努力解决 JavaFX 应用程序的混淆问题。使用此项目作为基础: https://github.com/openjfx/samples/tree/master/IDE/IntelliJ/Non-
java - 混淆 CSV
是否可以制作一个与此类似的 CSV 阅读器 while((line = reader.readLine()) != null){ String[] values = line.
java - 字符串输出与 + 混淆
公共(public)类测试2 { 公共(public)静态无效主(字符串[]参数){ System.out.println("3 + 6"); System.out.println(3

首页

博学

6Ren·AI

商城

python - 多标签混淆矩阵