python - 如何使用 GridSearchCV 的结果绘制验证曲线？-6ren

python - 如何使用 GridSearchCV 的结果绘制验证曲线？

转载作者：行者123 更新时间：2023-12-03 21:13:16

25

4

我正在使用 GridSearchCV 训练模型以找到最佳参数

代码:

grid_params = {
   'n_estimators': [100, 200, 300, 400],
   'criterion': ['gini', 'entropy'],
   'max_features': ['auto', 'sqrt', 'log2']
}

gs = GridSearchCV(
    RandomForestClassifier(),
    grid_params,
    cv=2,
    verbose=1,
    n_jobs=-1
)

clf = gs.fit(X_train, y_train)

这是一个缓慢的过程，在此之后，我打印混淆矩阵，但我想绘制验证曲线以检查是否存在过度拟合，我使用以下代码:

train_scores, valid_scores = validation_curve(clf.best_estimator_, X, y)

问题是我需要设置 param_name , param_range ，但我不想再次训练，因为这是一个太慢的过程。

另一种选择是使用 gs , 而不是 clf.best_estimator_ ，但我需要 gs训练，以获取其他信息。

如何绘制验证曲线，并保持 gs教练，两次没有火车？

最佳答案

您可以使用 cv_results_ GridSearchCV 的属性并获得每个超参数组合的结果。 Validation Curve旨在描述单个参数值对训练和交叉验证分数的影响。

由于您正在使用 GridSearchCV 微调多个参数，我们可以创建多个图来可视化每个参数的影响。问题在于，当我们想要研究特定参数时，我们必须平均计算其他参数。我们可以通过做 groupby 来实现这一点。分别在每个参数上，然后汇总结果。

我们可以取平均值，但对于标准差，我们必须使用 pooled variance因为每个 CV 的标准偏差几乎是恒定的。

from sklearn.datasets import make_classification
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import RandomForestClassifier

X, y = make_classification(n_samples=1000,  
                           n_features=100, n_informative=2,
                           class_sep=0.5,random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

grid_params = {
   'n_estimators': [10, 20, 50],
   'max_features': ['auto', 'sqrt', 'log2'],
   'criterion': ['gini', 'entropy'],
   'max_depth': [2, 5, 10]
}

gs = GridSearchCV(
    RandomForestClassifier(random_state=42),
    grid_params,
    cv=5,
    verbose=1,
    n_jobs=-1, 
    return_train_score=True # set this for train score
)

gs.fit(X_train, y_train)

import pandas  as pd
df = pd.DataFrame(gs.cv_results_)
results = ['mean_test_score',
           'mean_train_score',
           'std_test_score', 
           'std_train_score']

def pooled_var(stds):
    # https://en.wikipedia.org/wiki/Pooled_variance#Pooled_standard_deviation
    n = 5 # size of each group
    return np.sqrt(sum((n-1)*(stds**2))/ len(stds)*(n-1))

fig, axes = plt.subplots(1, len(grid_params), 
                         figsize = (5*len(grid_params), 7),
                         sharey='row')
axes[0].set_ylabel("Score", fontsize=25)


for idx, (param_name, param_range) in enumerate(grid_params.items()):
    grouped_df = df.groupby(f'param_{param_name}')[results]\
        .agg({'mean_train_score': 'mean',
              'mean_test_score': 'mean',
              'std_train_score': pooled_var,
              'std_test_score': pooled_var})

    previous_group = df.groupby(f'param_{param_name}')[results]
    axes[idx].set_xlabel(param_name, fontsize=30)
    axes[idx].set_ylim(0.0, 1.1)
    lw = 2
    axes[idx].plot(param_range, grouped_df['mean_train_score'], label="Training score",
                color="darkorange", lw=lw)
    axes[idx].fill_between(param_range,grouped_df['mean_train_score'] - grouped_df['std_train_score'],
                    grouped_df['mean_train_score'] + grouped_df['std_train_score'], alpha=0.2,
                    color="darkorange", lw=lw)
    axes[idx].plot(param_range, grouped_df['mean_test_score'], label="Cross-validation score",
                color="navy", lw=lw)
    axes[idx].fill_between(param_range, grouped_df['mean_test_score'] - grouped_df['std_test_score'],
                    grouped_df['mean_test_score'] + grouped_df['std_test_score'], alpha=0.2,
                    color="navy", lw=lw)

handles, labels = axes[0].get_legend_handles_labels()
fig.suptitle('Validation curves', fontsize=40)
fig.legend(handles, labels, loc=8, ncol=2, fontsize=20)

fig.subplots_adjust(bottom=0.25, top=0.85)  
plt.show()

注意:对于像 criterion 这样的字符串值的参数，线图不是正确的。，您可以将其修改为带有误差条的条形图。

关于python - 如何使用 GridSearchCV 的结果绘制验证曲线？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62363657/

25

4

0

文章推荐： iphone - 这些 NSMutableArray 初始化有何不同？

文章推荐： python - 如何增加 Pandas 图中xticks的大小

文章推荐： python - 为什么在发生参数错误时不使用装饰函数的名称？

文章推荐： android - 如何在 Jetpack Compose 中为按钮的宽度设置动画

python - 绘制国债 yield 曲线，如何使用 matplotlib 叠加两条 yield 曲线
我正在尝试创建 treasury yield curve 的图表比较两个不同日期的汇率。我很难将两条曲线组合起来并创建一个干净的图形。我的问题:如何将两条 yield 曲线绘制在一起， yield
用于随机森林分类的 ROC 曲线
我在 R 平台中使用 randomForest 包进行分类任务。 rf_object<-randomForest(data_matrix, label_factor, cutoff=c(k,1-k))
背景图像上的 CSS 曲线
我的设计师给我设计了这个设计，但我不知道如何最好地处理图像上方和下方的曲线。我考虑过 clip-path 但不知道如何 flex 它。如果可以的话，我不想使用图像。最佳答案您可以使用 borde
javascript - Canvas 曲线
我正在使用 Canvas 中的笔触和路径来制作两条线，我希望它们像波浪效果一样弯曲。而不是在 Photoshop 中创建实际图像来实现此目的。谁能帮忙得到如下图所示的曲线？我还想在末端实现圆 An
c++ - 曲线/路径骨架二值图像处理
我正在尝试开发一种可以处理图像骨架的路径/曲线的代码。我想要一个来自两点之间骨架的点 vector 。这段代码加了点就结束了，没找到解决办法。 #include "opencv2/highgui/
iphone - 如何在MKMapView上用MKOverlayView绘制圆弧/曲线
现在需要帮助。我可以用MKPolyline和MKPolylineView画线，但是如何在MKMapView上的两个坐标之间画弧线或曲线呢？非常感谢。最佳答案在回答问题之前，重要的是要提到 MKOv
python - 绘制多类问题的 ROC 曲线
我正在尝试应用 sklearn 的想法 ROC extension to multiclass到我的数据集。我的每类 ROC 曲线看起来都找到了一条直线，取消显示曲线波动的 sklearn 示例。我
r - 从数据框中手动创建 ROC 曲线
我有以下概念问题，我无法理解。以下是调查数据示例，其中我有一个时间列，指示某人需要多长时间才能回答某个问题。现在，我感兴趣的是清洁量将如何根据此阈值发生变化，即如果我增加阈值会发生什么，如果我降低
c - 误报概率图和 ROC 曲线
如何为使用视频的对象检测应用绘制每个窗口的误报率与未命中率(或误报概率)和 ROC(接收器操作曲线)的图表？如何确定误报和命中的数量？一个例子是很有用。最佳答案它很简单。将所有真正 (H0) 值存
r - 从随机森林分类中绘制 ROC 曲线
我正在尝试绘制随机森林分类的 ROC 曲线。绘图有效，但我认为我绘制了错误的数据，因为生成的绘图只有一个点(准确性)。这是我使用的代码: set.seed(55) data.controls <
r - 使用插入符号中的提升从两种不同的算法绘制 ROC 曲线
我有如下两个模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <-
classification - 过度拟合和 ROC 曲线
是否可以仅通过查看其 ROC 曲线来了解分类器是否过度拟合？我看到如果它的 AUC 太高(例如 98%)可能会过度拟合，但这也可能意味着分类器非常好。有没有办法区分这两种情况？最佳答案简短的回答:
带箭头的 JavaFX 线/曲线
我正在 JavaFX 中创建一个图形，它应该由有向边连接。最好是双三次曲线。有谁知道如何添加箭头？箭头当然应该根据曲线的末端进行旋转。这是一个没有箭头的简单示例: import javafx.ap
c# - XNA CatmullRom 曲线
我需要对我正在尝试的技术进行一些说明。我正在尝试将一个实体从 A 点移动到 B 点，但我不希望该实体沿直线移动。例如，如果实体位于 x: 0, y:0 并且我想到达点 x:50, y: 0，我希望实
r - 曲线 R 下的阴影面积
我试图在曲线下方绘制阴影区域，但阴影区域位于曲线上方。谁能告诉我我的代码有什么问题？ x=seq(0,30) y1=exp(-0.1*x) plot(x,y1,type="l",lwd=2,col="
c# - XNA CatmullRom 曲线
我需要对我正在尝试的技术进行一些说明。我正在尝试将一个实体从 A 点移动到 B 点，但我不希望该实体沿直线移动。例如，如果实体位于 x: 0, y:0 并且我想到达点 x:50, y: 0，我希望实
r - 绘制引导插入符号模型的 ROC 曲线
我有一个如下所示的模型: library(mlbench) data(Sonar) library(caret) set.seed(998) my_data <- Sonar fitControl <
pyspark 提取 ROC 曲线？
有没有办法从pyspark中的Spark ML获取ROC曲线上的点？在文档中，我看到了一个 Scala 的例子，但不是 python:https://spark.apache.org/docs/2.1
python - 如何绘制局部离群因子算法的 ROC 曲线？
我正在尝试使用Local Outlier Factor (LOF)算法，并想绘制 ROC 曲线。问题是，scikit-learn 提供的库不会为每个预测生成分数。那么，有什么办法可以解决这个问题吗？
c# - GDI+曲线 "overflowing"
我目前正在使用 GDI+ 绘制折线图，并使用 Graphics.DrawCurve 来平滑线条。问题是曲线并不总是与我输入的点匹配，这使得曲线在某些点上超出了图形框架，如下所示(红色是 Graph

首页

博学

6Ren·AI

商城

python - 如何使用 GridSearchCV 的结果绘制验证曲线？