gpt4 book ai didi

validation - 使用训练阶段使用的完全相同的数据集进行交叉验证是否合适?

转载 作者:行者123 更新时间:2023-11-30 08:54:55 24 4
gpt4 key购买 nike

我正在使用Weka API来测试一些算法的性能。如果我想将数据集划分如下:

  • 70% 用于培训
  • 10% 用于验证
  • 20% 用于测试

对于验证阶段,我应该对 10% 划分的新鲜数据使用交叉验证方法吗?还是对已经训练过的 70% 数据应用交叉验证更好?为什么?

最佳答案

这实际上是非常具体的问题,但总的来说 - 它取决于数据集的大小。如果您有大数据集,那么即使是子样本也具有代表性,因此您可以将所有内容拆分一次以进行训练/验证/测试,然后仅运行典型的优化和测试例程。另一方面,如果您的数据量相当小(~1000 个样本),那么实际上测试和验证都需要 CV(或其他技术,例如 err 0.632)。这一切都与所获得的误差估计的统计显着性有关。如果数据很小 - 您需要生成多个实验(CV)以获得合理的估计量;如果您有 100,000 个样本,那么即使 10% 也足以用作有效的误差估计量。

关于validation - 使用训练阶段使用的完全相同的数据集进行交叉验证是否合适?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35118913/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com