gpt4 book ai didi

python - 如何使用交叉验证获得最佳系数向量

转载 作者:太空宇宙 更新时间:2023-11-04 05:51:25 25 4
gpt4 key购买 nike

我正在数据集上运行岭回归。我做了 5 折交叉验证。所以基本上我的数据集分为 5 个训练和 5 个测试折叠。

这是我在 scikit 中的做法:

from sklearn import cross_validation
k_fold=cross_validation.KFold(n=len(tourism_train_X),n_folds=5)

我这样设置正则化参数:

#Generating alpha values for regularization parameters
n_alphas = 200
alphas = np.logspace(-10, -1, n_alphas)

现在,我的疑问是,对于每次训练和测试折叠我做这样的事情。

ridge_tourism = linear_model.Ridge()
for a in alphas:
ridge_tourism.set_params(alpha=a)
index=0
for train_indices, test_indices in k_fold:
ridge_tourism.fit(tourism_train_X[train_indices], tourism_train_Y[train_indices]) # Fitting the model
coefs.append(ridge_tourism.coef_)

问题是它会为每个 alpha 中的五个训练折叠中的每一个提供系数向量。我想要的只是对于每个 alpha,选择的最佳系数向量是什么。我们如何得到它?我们如何从 5 个训练集中选择最终报告的 alpha 系数向量?

最佳答案

对于每个 alpha 值,取 5 折验证的验证误差的平均值。然后,您将能够获得平均验证误差与平均验证误差的曲线。 α。选择给出最低平均验证误差的 alpha 值。

关于python - 如何使用交叉验证获得最佳系数向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30043764/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com