gpt4 book ai didi

python-3.x - GridSearchCV : based on mean_test_score results, 预测应该表现得更差,但事实并非如此

转载 作者:行者123 更新时间:2023-12-03 08:29:37 25 4
gpt4 key购买 nike

我正在尝试通过 GridSearchCV 评估回归器的性能。在我的实现中,cv 是一个 int,所以我应用了 K 折验证方法。查看 cv_results_['mean_test_score'], k-fold unseen 数据的最佳平均分数约为 0.7,而训练分数要高得多,如 0.999。这很正常,我对此没有意见。

好吧,按照这个概念背后的推理,当我在整个数据集上应用 best_estimator_ 时,我希望看到至少部分数据预测不是完美,对吧?相反,所有数据点的预测量和实际值之间的数值偏差都接近于零。这有点过拟合的味道。

我不明白,因为如果我删除一小部分数据并将 GridSearchCV 应用于其余部分,我会发现与上面几乎相同的结果,但是应用于完全看不见的数据的最佳回归器预测更高错误,例如 10%、30% 或 50%。这是我所期望的,至少在某些方面,基于 k 折测试集的结果,在整个集合上拟合 GridSearchCV。

现在,我明白这会迫使预测器查看所有数据点,但最佳估计器是 k 次拟合的结果,它们中的每一个都从未看到 1/k 部分数据。作为这 k 个分数之间的平均 mean_test_score,我希望看到一堆预测(取决于 cv 值),这些预测显示错误分布在证明 0.7 分数合理的平均错误周围。

最佳答案

GridSearchCV 的 refit=True 参数使具有找到的最佳超参数集的估计器在完整数据上重新拟合。因此,如果您的训练误差在 CV 折叠中几乎为零,您会期望它在 best_estimator_ 中也接近于零。

关于python-3.x - GridSearchCV : based on mean_test_score results, 预测应该表现得更差,但事实并非如此,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51558872/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com