gpt4 book ai didi

python - scikit-learn GridSearchCV best_score_ 是如何计算的?

转载 作者:太空狗 更新时间:2023-10-30 00:44:53 26 4
gpt4 key购买 nike

我一直在试图弄清楚 GridSearchCV 的 best_score_ 参数是如何计算的(或者换句话说,它是什么意思)。documentation说:

Score of best_estimator on the left out data.

因此,我尝试将其翻译成我理解的内容,并计算了实际“y”的 r2_score 和每个 kfold 的预测 ys - 并得到了不同的结果(使用了这段代码):

test_pred = np.zeros(y.shape) * np.nan 
for train_ind, test_ind in kfold:
clf.best_estimator_.fit(X[train_ind, :], y[train_ind])
test_pred[test_ind] = clf.best_estimator_.predict(X[test_ind])
r2_test = r2_score(y, test_pred)

我到处搜索了对 best_score_ 更有意义的解释,但找不到任何内容。有人愿意解释一下吗?

谢谢

最佳答案

这是最佳估计器的平均交叉验证分数。让我们制作一些数据并修复交叉验证的数据划分。

>>> y = linspace(-5, 5, 200)
>>> X = (y + np.random.randn(200)).reshape(-1, 1)
>>> threefold = list(KFold(len(y)))

现在运行 cross_val_scoreGridSearchCV,它们都具有这些固定折叠。

>>> cross_val_score(LinearRegression(), X, y, cv=threefold)
array([-0.86060164, 0.2035956 , -0.81309259])
>>> gs = GridSearchCV(LinearRegression(), {}, cv=threefold, verbose=3).fit(X, y)
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV] ................................................................
[CV] ...................................... , score=-0.860602 - 0.0s
[Parallel(n_jobs=1)]: Done 1 jobs | elapsed: 0.0s
[CV] ................................................................
[CV] ....................................... , score=0.203596 - 0.0s
[CV] ................................................................
[CV] ...................................... , score=-0.813093 - 0.0s
[Parallel(n_jobs=1)]: Done 3 out of 3 | elapsed: 0.0s finished

注意 GridSearchCV 输出中的 score=-0.860602score=0.203596score=-0.813093 ;正是 cross_val_score 返回的值。

请注意,“平均值”实际上是折叠的宏观平均值。 GridSearchCViid 参数可用于获取样本的微平均。

关于python - scikit-learn GridSearchCV best_score_ 是如何计算的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24096146/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com