gpt4 book ai didi

validation - 交叉验证——使用测试集还是验证集来预测?

转载 作者:行者123 更新时间:2023-11-30 08:32:46 25 4
gpt4 key购买 nike

我有关于交叉验证的问题。

在机器学习中,我们知道有训练集、验证集、测试集。测试集是最终运行,以查看最终模型/分类器的执行情况。

但是在交叉验证的过程中:我们将数据分为训练集和测试集(大多数教程都使用这个术语),所以我很困惑。我们是否需要将整个数据分为三个部分:训练、验证、测试?因为在交叉验证中,我们只是继续讨论与 2 组的关系:训练组和另一组。

谁能帮忙解释一下吗?

谢谢

最佳答案

是的,这有点令人困惑,因为有些 Material 可以互换使用 CV/test,而有些 Material 则不使用 CV/test,但我会尽力通过理解为什么需要它来使其易于理解:

你需要训练集来准确地做到这一点,训练,但你还需要一种方法来确保你的算法不会记住训练集(它没有过度拟合)以及它的表现如何,这样使得需要测试集,以便您可以为其提供从未见过的数据,并可以测量性能。

但是.... ML 一切都与实验有关,您将训练、评估、调整一些旋钮(超参数或架构),再次训练,一遍又一遍地评估,然后您将选择最佳的实验结果,然后进行部署您的系统在生产中获取了从未见过的数据,并且性能不佳,发生了什么?您使用测试数据来拟合参数并做出决策,因此您对该测试数据进行了过度拟合,但您不知道它对从未见过的数据有何影响。

交叉验证解决了这个问题,您可以使用训练数据来学习参数,并使用测试数据来评估它在未见过的数据上的表现,但仍然需要一种方法来试验最佳的超参数和架构:您可以对训练进行采样数据并称之为交叉验证集,并隐藏你的测试数据,直到最后你永远不会使用它。

现在使用训练数据来学习参数,并尝试超参数和架构,但您将在交叉验证数据而不是测试数据上评估每个实验(您可以将其视为使用 CV 数据作为学习超参数),在您进行了大量实验并选择了最佳性能选项(在 CV 上)之后,您现在可以使用测试数据来评估它在将其部署到生产之前从未见过的数据上的性能。

关于validation - 交叉验证——使用测试集还是验证集来预测?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43663365/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com