gpt4 book ai didi

r - 可以使用经过验证的模型来预测整个数据集吗?

转载 作者:行者123 更新时间:2023-11-30 08:40:42 25 4
gpt4 key购买 nike

我们一直在大约 15k 行的数据集上运行“gbm”模型。我们直接实现了 10 倍交叉验证来得出交叉验证模型,我们使用该模型在同一数据集上再次进行预测。

这可能导致模型过度拟合,训练 AUC 约为 0.99,cv AUC 约为 0.92。预测 AUC 也非常高,约为 0.99。

审稿人要求我们使用保留数据集验证模型。我们假设我们将数据分为保留数据和训练数据。然后训练数据将再次进行kfold交叉验证。然后将使用保留数据集验证模型。我的最后一个问题是我们是否可以在整个数据集上再次使用经过验证的模型进行预测?

最佳答案

你可以...应该的问题取决于你想要描绘的内容。

理想情况下,您希望能够证明您的模型能够很好地推广到新数据(保留数据),并将其与模型在训练数据上的表现进行比较。如果您的模型在两者之间存在很大的性能差异,则您可能会过度拟合数据。

我认为一次性预测所有数据(训练和保留)没有多大意义,因为它无助于证明模型预测未见数据的能力。

您的目标是在 k-CV 期间以及在保留期间提供训练数据的性能。

根据您的 k-CV 设置,您将在整个训练集上训练模型,然后在比较之前对两者进行预测。您需要更具体地描述您的确切设置。

关于r - 可以使用经过验证的模型来预测整个数据集吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49889859/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com