gpt4 book ai didi

scikit-learn - 哪个型号 : Best estimator from gridsearchCV or all training data?

转载 作者:行者123 更新时间:2023-12-04 16:29:36 25 4
gpt4 key购买 nike

当涉及到网格搜索和拟合最终模型时,我有点困惑。我将其分为 2 个:训练和测试。测试集仅用于最终评估。我只使用训练数据执行网格搜索。

假设有人使用交叉验证对多个超参数进行了网格搜索。网格搜索提供了超参数的最佳组合。下一步是训练模型,这就是我感到困惑的地方。我看到两种可能性:

1)不要训练模型。使用网格搜索中最佳模型的参数。

或者

2)不要使用网格搜索中最佳模型的参数。使用网格搜索中的最佳超参数组合在完整训练集上训练模型。

什么是正确的方法,1 或 2?

最佳答案

这可能晚了,但可能对其他人有用。GridSearchCV有一个名为 refit 的属性,设置为 True默认情况下。这意味着在执行 k 折交叉验证(即对您传入的数据子集进行训练)之后,它会使用网格搜索中的最佳超参数在完整的训练集上重新拟合模型。
据我所知,你的问题大概可以概括为:
假设您使用 5 折交叉验证。然后您的模型只适合 4 折,因为第五折用于验证。那么您是否需要在整个训练过程中重新训练模型(即来自所有 5 个折叠的数据)?
答案是否定的,只要您设置 refitTrue ,在这种情况下 GridSearchCV将使用交叉验证后找到的最佳超参数对整个训练集进行训练。然后它会返回经过训练的估算器对象,您可以在该对象上直接调用 predict方法,就像您通常会做的那样。
引用:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

关于scikit-learn - 哪个型号 : Best estimator from gridsearchCV or all training data?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53030918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com