python - 具有单独训练和验证集的 GridSearchCV 错误地还考虑了最终选择最佳模型的训练结果-6ren

python - 具有单独训练和验证集的 GridSearchCV 错误地还考虑了最终选择最佳模型的训练结果

转载作者：行者123 更新时间：2023-11-30 09:05:48

29

4

我有一个包含 3500 个观察值 x 70 个特征的数据集，这是我的训练集，我还有一个包含 600 个观察值 x 70 个特征的数据集，这是我的验证集。目标是将观测值正确分类为 0 或 1。

我使用 Xgboost，目标是在分类阈值 = 0.5 时获得尽可能高的精度。

我正在进行网格搜索:

import numpy as np
import pandas as pd
import xgboost

# Import datasets from edge node
data_train = pd.read_csv('data.csv')
data_valid = pd.read_csv('data_valid.csv')
 
# Specify 'data_test' as validation set for the Grid Search below
from sklearn.model_selection import PredefinedSplit
X, y, train_valid_indices = train_valid_merge(data_train, data_valid)
train_valid_merge_indices = PredefinedSplit(test_fold=train_valid_indices)

# Define my own scoring function to see
# if it is called for both the training and the validation sets
from sklearn.metrics import make_scorer
custom_scorer = make_scorer(score_func=my_precision, greater_is_better=True, needs_proba=False)

# Instantiate xgboost
from xgboost.sklearn import XGBClassifier
classifier = XGBClassifier(random_state=0)

# Small parameters' grid ONLY FOR START
# I plan to use way bigger parameters' grids 
parameters = {'n_estimators': [150, 175, 200]}

# Execute grid search and retrieve the best classifier
from sklearn.model_selection import GridSearchCV
classifiers_grid = GridSearchCV(estimator=classifier, param_grid=parameters, scoring=custom_scorer,
                                   cv=train_valid_merge_indices, refit=True, n_jobs=-1)
classifiers_grid.fit(X, y)

...................................................... ................................

train_valid_merge - 指定我自己的验证集:

我想使用我的训练集 (data_train) 对每个模型进行训练，并使用我的不同/单独的验证集 (data_valid) 进行超参数调整。因此，我定义了一个名为 train_valid_merge 的函数，它将我的训练集和验证集连接起来，以便可以将它们提供给 GridSeachCV，并且我还使用了 PredefineSplit code> 指定此合并集中哪个是训练集，哪个是验证集:

def train_valid_merge(data_train, data_valid):

    # Set test_fold values to -1 for training observations
    train_indices = [-1]*len(data_train)

    # Set test_fold values to 0 for validation observations
    valid_indices = [0]*len(data_valid)

    # Concatenate the indices for the training and validation sets
    train_valid_indices = train_indices + valid_indices

    # Concatenate data_train & data_valid
    import pandas as pd
    data = pd.concat([data_train, data_valid], axis=0, ignore_index=True)
    X = data.iloc[:, :-1].values
    y = data.iloc[:, -1].values
    return X, y, train_valid_indices

...................................................... ................................

custom_scorer - 指定我自己的评分指标:

我定义了自己的评分函数，它只是返回精度，只是为了看看训练集和验证集是否都调用了它:

def my_precision(y_true, y_predict):

    # Check length of 'y_true' to see if it is the training or the validation set
    print(len(y_true))

    # Calculate precision
    from sklearn.metrics import precision_score
    precision = precision_score(y_true, y_predict, average='binary')

    return precision

...................................................... ................................

当我运行整个过程时(对于 parameters = {'n_estimators': [150, 175, 200]})，则从 print(len(y_true )) 在 my_ precision 函数中:

这意味着训练集和验证集都会调用评分函数。但我已经测试过，评分函数不仅被调用，而且来自训练集和验证集的结果也用于确定网格搜索中的最佳模型(即使我已指定它仅使用验证集结果)。

例如，使用我们的 3 个参数值 ('n_estimators': [150, 175, 200])，它会考虑训练集和验证集(2 组)的分数，因此它产生(3个参数)x(2组)= 6个不同的网格结果。因此，它从所有这些网格结果中挑选出最佳的超参数集，因此它最终可能会从训练集的结果中挑选出一个超参数集，而我只想考虑验证集(3 个结果)。

但是，如果我向 my_ precision 函数添加类似的内容来绕过训练集(通过将其所有精度值设置为 0):

# Remember that the training set has 3500 observations
# and the validation set 600 observations
if(len(y_true>600)):
    return 0

然后(据我测试)我当然得到了适合我的规范的最佳模型，因为训练集精度结果太小，因为它们都是 0 到。

我的问题如下:

为什么自定义评分函数会考虑训练集和验证集来挑选最佳模型，而我已使用 train_valid_merge_indices 指定网格搜索的最佳模型应该是根据验证集选择？

当模型的选择和排名完成时，如何使 GridSearchCV 只考虑验证集和模型的得分？

最佳答案

I have one distinct training set and one distinct validation set. I want to train my model on the training set and find the best hyperparameters based on its performance on my distinct validation set.

那么您肯定既不需要 PredefinedSplit 也不需要 GridSearchCV:

import pandas as pd
from xgboost.sklearn import XGBClassifier
from sklearn.metrics import precision_score

# Import datasets from edge node
data_train = pd.read_csv('data.csv')
data_valid = pd.read_csv('data_valid.csv')

# training data & labels:
X = data_train.iloc[:, :-1].values
y = data_train.iloc[:, -1].values   

# validation data & labels:
X_valid = data_valid.iloc[:, :-1].values
y_true = data_valid.iloc[:, -1].values 

n_estimators = [150, 175, 200]
perf = []

for k_estimators in n_estimators:
    clf = XGBClassifier(n_estimators=k_estimators, random_state=0)
    clf.fit(X, y)

    y_predict = clf.predict(X_valid)
    precision = precision_score(y_true, y_predict, average='binary')
    perf.append(precision)

和perf将包含验证集上各自分类器的性能...

关于python - 具有单独训练和验证集的 GridSearchCV 错误地还考虑了最终选择最佳模型的训练结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52579293/

29

4

0

文章推荐： matlab - 在 MATLAB 中创建简单神经网络时的困惑

文章推荐： java - Java中两个列表之间的关系

文章推荐： Python 切片表示法

java - JPA 选择(选择)
是否有某种方法可以使用 JPA 或 Hibernate Crtiteria API 来表示这种 SQL？或者我应该将其作为 native 执行吗？ SELECT A.X FROM (SELECT X,
mysql - 选择 1 - 选择 2
在查询中， select id,name,feature,marks from (....) 我想删除其 id 在另一个 select 语句中存在的那些。从 (...) 中选择 id 我是 sql
javascript - 选择 HTML 选择/下拉列表中的项目时会触发什么事件？
我想响应用户在 select 元素中选择一个项目。然而这个 jQuery: $('#platypusDropDown').select(function () { alert('You sel
sql - 选择..来自(选择..来自..)。如何改进此查询？
这个问题在这里已经有了答案: SQL select only rows with max value on a column [duplicate] (27 个回答) 关闭8年前。我正在学习 SQL
php - mysqli查询(选择)不起作用(选择)php
This question already has answers here: “Notice: Undefined variable”, “Notice: Undefined index”, and
php - SQL - 如果存在 - 选择 A - 否则 - 选择 B
我在 php 脚本中调用 SQL。有时“DE”中没有值，如果是这种情况我想从“EN”中获取值应该是这样的，但不是这样的 IF (EXISTS (SELECT epf_application_deta
mysql - 选择 TableName.Col1 VS 选择 Col1
这可能是一个奇怪的问题，但不知道如何研究它。执行以下查询时: SELECT Foo.col1, Foo.col2, Foo.col3 FROM Foo INNER JOIN Bar ON
javascript - 如何在 phonegap 中同时使用相机 API 选择(选择)多张图像？
如何在使用 Camera.DestinationType.FILE_URI. 时在 phonegap camera API 中同时选择或拾取多个图像我能够一次只选择一张图像。我可以使用 this 在
sql-server - 如果存在(选择 1...)与如果存在(选择 TOP 1 1...)
这是一个纯粹的学术问题。这两个陈述实际上是否相同？ IF EXISTS (SELECT TOP 1 1 FROM Table1) SELECT 1 ELSE SELECT 0 相对 IF EXIS
java - JSoup 根据 Id 选择 Div，根据 title 选择 href
我使用 JSoup 来解析 HTML 响应。我有多个 Div 标签。我必须根据 ID 选择 Div 标签。我的伪代码是这样的 Document divTag = Jsoup.connect(link
JavaScript 选择
我正在处理一个具有多个选择框的表单。当用户从 selectbox1 中选择一个选项时，我需要 selectbox2 active 的另一个值。同样，当他选择 selectbox2 的另一个值时，我需要
jQuery 选择
Acme Inc. Christa Woods Charlotte Freeman Jeffrey Walton Ella Hubbard Se
php数据库连接/选择
我有一个login.html其中form定义如下: First Initial Plus Last Name : 我的do_authorize如下: "; pri
JavaScript 选择
$.get( 'http://www.ufilme.ro/api/load/maron_online/470', function(data
Javascript 选择
我有一个下拉列表“磅”、“克”、“千克”和“盎司”。我想要这样一种情况，当我选择 gram 来执行一个函数时，当我在输入字段中输入一个值时，当我选择 pounds 时，我想要另一个函数来执行时我在输入
GLSL channel 选择
我有一个 GLSL 着色器，它从输入纹理的 channel 之一(例如 R)读取，然后写入输出纹理中的同一 channel 。该 channel 必须由用户选择。我现在能想到的就是使用一个 int
html - 如何根据下拉列表中的选定数字生成表单输入字段(选择)
我想根据下拉列表中的选定值生成输入文本框。 Options 2 3 4 5 就在这个选择框之后，一些输入字段应该按照选定的数字出现。最佳答案我建议您使用响应式(Reac
优先选择列值的 SQL 选择
我是 SQL 新手，我想问一下如何根据首选项和分组选择条目。 +----------+----------+------+ | ENTRY_ID | ROUTE_ID | TYPE | +------
sql - 选择 * 进入失败
我有以下表结构: CREATE TABLE [dbo].[UTS_USERCLIENT_MAPPING_USER_LIST] ( [MAPPING_ID] [int] IDENTITY(1,1
vba 选择/删除除第一个以外的所有工作表
我在移除不必要的床单时遇到了问题。我查看了不同的论坛并将不同的解决方案混合在一起。此宏删除工作表(第一张工作表除外)。 Sub wrong() Dim sht As Object Applicati

首页

博学

6Ren·AI

商城

python - 具有单独训练和验证集的 GridSearchCV 错误地还考虑了最终选择最佳模型的训练结果