gpt4 book ai didi

machine-learning - 将验证集与交叉验证方法一起使用是否有意义?

转载 作者:行者123 更新时间:2023-11-30 09:57:41 25 4
gpt4 key购买 nike

我想使用 Weka 训练一个具有约 200 个样本和 6 个属性的多层感知器。我正在考虑分成训练和测试,并在训练中指定训练的一定百分比作为验证集。但后来我考虑使用折叠交叉验证,以便更好地利用我的样本集。

我的问题是:在进行交叉验证方法时指定验证集是否有意义?

并且,考虑到样本的大小,您能为我建议这两种方法的一些数字吗? (例如 2/3 用于训练,1/3 测试和 20% 验证...对于 CV:10 倍、2 倍或 LOOCV 代替...)

提前谢谢您!

最佳答案

您的问题听起来好像您对交叉验证不太熟悉。就像您注意到的那样,有一个用于运行折叠次数的参数。对于简单的交叉验证,该参数定义了从原始集合中创建的子集的数量。令该参数为 k。您的原始集合被分成 k 个大小相等的子集。然后,对于每次运行,训练都会在 k-1 个子集上运行,并在剩余的第 k 个子集上进行验证。然后用这k个子集的k-1个子集的另一个排列来进行训练,以此类推。因此,您运行此过程的 k 次迭代。

对于您的数据集大小,k=10 听起来不错,但基本上一切都值得测试,只要您考虑所有结果并且不采用最好的结果。

对于非常简单的评估,您只需使用 2/3 作为训练集,1/3“测试集”实际上是您的验证集。还有更复杂的方法,它们使用测试集作为终止标准,并使用另一个验证集作为最终评估(因为您的结果也可能过度拟合测试集,因为它定义了终止)。对于这种方法,您显然需要以不同的方式分割集合(例如 2/3 训练、3/12 测试和 1/12 验证)。

关于machine-learning - 将验证集与交叉验证方法一起使用是否有意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13729986/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com