python - 在 sklearn 中绘制类权重的验证曲线-6ren

python - 在 sklearn 中绘制类权重的验证曲线

转载作者：行者123 更新时间：2023-11-28 22:18:40

26

4

如果您能告诉我如何绘制类(class)权重的验证曲线，我将不胜感激。事实上，我厌倦了以下代码来完成这项任务:

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, StratifiedKFold, validation_curve, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
import numpy as np
import matplotlib.pyplot as plt

def plot_validation_curve(param_range, train_scores, test_scores, title, alpha=0.1):
    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    test_mean = np.mean(test_scores, axis=1)
    test_std = np.std(test_scores, axis=1)
    plt.plot(param_range, train_mean, label='train score', color='blue', marker='o')
    plt.fill_between(param_range, train_mean + train_std,
                     train_mean - train_std, color='blue', alpha=alpha)
    plt.plot(param_range, test_mean, label='test score', color='red', marker='o')
    plt.fill_between(param_range, test_mean + test_std, test_mean - test_std, color='red', alpha=alpha)
    plt.title(title)
    plt.grid(ls='--')
    plt.xlabel('Parameter value')
    plt.ylabel('F-measure')
    plt.legend(loc='best')
    plt.show()

if __name__ == '__main__':
    X, y = make_classification(n_classes=2, class_sep=2, weights=[0.9, 0.1], n_informative=3, n_redundant=1, flip_y=0,
                               n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)

    X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
    st = StandardScaler()

    rg = LogisticRegression(class_weight={0: 1, 1: 6.5}, random_state=42, solver='saga', max_iter=100, n_jobs=-1)

    param_grid = {'clf__C': [0.001, 0.01, 0.1],
                  'clf__class_weight': [{0: 1, 1: 6}, {0: 1, 1: 5.5}]}

    pipeline = Pipeline(steps=[('scaler', st),
                               ('clf', rg)])

    cv = StratifiedKFold(n_splits=5, random_state=42)
    rg_cv = GridSearchCV(pipeline, param_grid, cv=cv, scoring='f1')
    rg_cv.fit(X_train, y_train)

    plt.figure(figsize=(9, 6))

    param_range2 = [{0: 1, 1: 6}, {0: 1, 1: 4}, {0: 1, 1: 5.5}]

    train_scores, test_scores = validation_curve(
        estimator=rg_cv.best_estimator_, X=X_train, y=y_train, param_name="clf__class_weight", param_range=param_range2,
        cv=cv, scoring="f1", n_jobs=-1)

    plot_validation_curve(param_range2, train_scores, test_scores, title="Validation Curve for class_weight", alpha=0.1)

但是报这个错，跟最后一行的param_range2有关:

TypeError: float() argument must be a string or a number, not 'dict'

提前致谢。

最好的问候，

最佳答案

您必须决定要在 x 轴上绘制什么。您对不同的类别权重进行参数扫描。由于您将第一类的权重固定为 1，而只修改了第二类的权重，因此我决定根据第二类的权重绘制分数。

然后我按升序对绘图函数中的权重进行排序，这样您就可以很好地连接线条。

def plot_validation_curve(param_range, train_scores, test_scores, title, alpha=0.1):
    param_range = [x[1] for x in param_range] 
    sort_idx = np.argsort(param_range)
    param_range=np.array(param_range)[sort_idx]
    train_mean = np.mean(train_scores, axis=1)[sort_idx]
    train_std = np.std(train_scores, axis=1)[sort_idx]
    test_mean = np.mean(test_scores, axis=1)[sort_idx]
    test_std = np.std(test_scores, axis=1)[sort_idx]
    plt.plot(param_range, train_mean, label='train score', color='blue', marker='o')
    plt.fill_between(param_range, train_mean + train_std,
                     train_mean - train_std, color='blue', alpha=alpha)
    plt.plot(param_range, test_mean, label='test score', color='red', marker='o')
    plt.fill_between(param_range, test_mean + test_std, test_mean - test_std, color='red', alpha=alpha)
    plt.title(title)
    plt.grid(ls='--')
    plt.xlabel('Weight of class 2')
    plt.ylabel('Average values and standard deviation for F1-Score')
    plt.legend(loc='best')
    plt.show()

这导致以下情节

关于python - 在 sklearn 中绘制类权重的验证曲线，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50296498/

26

4

0

文章推荐： java - Windows 7 上 Apache Tomcat 8 的 %CATALINA_HOME% 环境变量

文章推荐： python - 使用 python 在文件中拆分和保存文本

python - 绘制国债 yield 曲线，如何使用 matplotlib 叠加两条 yield 曲线
我正在尝试创建 treasury yield curve 的图表比较两个不同日期的汇率。我很难将两条曲线组合起来并创建一个干净的图形。我的问题:如何将两条 yield 曲线绘制在一起， yield
用于随机森林分类的 ROC 曲线
我在 R 平台中使用 randomForest 包进行分类任务。 rf_object<-randomForest(data_matrix, label_factor, cutoff=c(k,1-k))
背景图像上的 CSS 曲线
我的设计师给我设计了这个设计，但我不知道如何最好地处理图像上方和下方的曲线。我考虑过 clip-path 但不知道如何 flex 它。如果可以的话，我不想使用图像。最佳答案您可以使用 borde
javascript - Canvas 曲线
我正在使用 Canvas 中的笔触和路径来制作两条线，我希望它们像波浪效果一样弯曲。而不是在 Photoshop 中创建实际图像来实现此目的。谁能帮忙得到如下图所示的曲线？我还想在末端实现圆 An
c++ - 曲线/路径骨架二值图像处理
我正在尝试开发一种可以处理图像骨架的路径/曲线的代码。我想要一个来自两点之间骨架的点 vector 。这段代码加了点就结束了，没找到解决办法。 #include "opencv2/highgui/
iphone - 如何在MKMapView上用MKOverlayView绘制圆弧/曲线
现在需要帮助。我可以用MKPolyline和MKPolylineView画线，但是如何在MKMapView上的两个坐标之间画弧线或曲线呢？非常感谢。最佳答案在回答问题之前，重要的是要提到 MKOv
python - 绘制多类问题的 ROC 曲线
我正在尝试应用 sklearn 的想法 ROC extension to multiclass到我的数据集。我的每类 ROC 曲线看起来都找到了一条直线，取消显示曲线波动的 sklearn 示例。我
r - 从数据框中手动创建 ROC 曲线
我有以下概念问题，我无法理解。以下是调查数据示例，其中我有一个时间列，指示某人需要多长时间才能回答某个问题。现在，我感兴趣的是清洁量将如何根据此阈值发生变化，即如果我增加阈值会发生什么，如果我降低
c - 误报概率图和 ROC 曲线
如何为使用视频的对象检测应用绘制每个窗口的误报率与未命中率(或误报概率)和 ROC(接收器操作曲线)的图表？如何确定误报和命中的数量？一个例子是很有用。最佳答案它很简单。将所有真正 (H0) 值存
r - 从随机森林分类中绘制 ROC 曲线
我正在尝试绘制随机森林分类的 ROC 曲线。绘图有效，但我认为我绘制了错误的数据，因为生成的绘图只有一个点(准确性)。这是我使用的代码: set.seed(55) data.controls <
r - 使用插入符号中的提升从两种不同的算法绘制 ROC 曲线
我有如下两个模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <-
classification - 过度拟合和 ROC 曲线
是否可以仅通过查看其 ROC 曲线来了解分类器是否过度拟合？我看到如果它的 AUC 太高(例如 98%)可能会过度拟合，但这也可能意味着分类器非常好。有没有办法区分这两种情况？最佳答案简短的回答:
带箭头的 JavaFX 线/曲线
我正在 JavaFX 中创建一个图形，它应该由有向边连接。最好是双三次曲线。有谁知道如何添加箭头？箭头当然应该根据曲线的末端进行旋转。这是一个没有箭头的简单示例: import javafx.ap
c# - XNA CatmullRom 曲线
我需要对我正在尝试的技术进行一些说明。我正在尝试将一个实体从 A 点移动到 B 点，但我不希望该实体沿直线移动。例如，如果实体位于 x: 0, y:0 并且我想到达点 x:50, y: 0，我希望实
r - 曲线 R 下的阴影面积
我试图在曲线下方绘制阴影区域，但阴影区域位于曲线上方。谁能告诉我我的代码有什么问题？ x=seq(0,30) y1=exp(-0.1*x) plot(x,y1,type="l",lwd=2,col="
c# - XNA CatmullRom 曲线
我需要对我正在尝试的技术进行一些说明。我正在尝试将一个实体从 A 点移动到 B 点，但我不希望该实体沿直线移动。例如，如果实体位于 x: 0, y:0 并且我想到达点 x:50, y: 0，我希望实
r - 绘制引导插入符号模型的 ROC 曲线
我有一个如下所示的模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <
pyspark 提取 ROC 曲线？
有没有办法从pyspark中的Spark ML获取ROC曲线上的点？在文档中，我看到了一个 Scala 的例子，但不是 python:https://spark.apache.org/docs/2.1
python - 如何绘制局部离群因子算法的 ROC 曲线？
我正在尝试使用Local Outlier Factor (LOF)算法，并想绘制 ROC 曲线。问题是，scikit-learn 提供的库不会为每个预测生成分数。那么，有什么办法可以解决这个问题吗？
c# - GDI+曲线 "overflowing"
我目前正在使用 GDI+ 绘制折线图，并使用 Graphics.DrawCurve 来平滑线条。问题是曲线并不总是与我输入的点匹配，这使得曲线在某些点上超出了图形框架，如下所示(红色是 Graph

首页

博学

6Ren·AI

商城

python - 在 sklearn 中绘制类权重的验证曲线