gpt4 book ai didi

machine-learning - 分割训练和测试数据

转载 作者:行者123 更新时间:2023-11-30 08:38:03 28 4
gpt4 key购买 nike

有人可以推荐机器学习中训练数据和测试数据划分的最佳百分比是多少吗?如果我将训练数据和测试数据分成 30-70% 会有什么缺点?

最佳答案

不幸的是,没有一种“正确的方法”来分割你的数据,人们使用不同的值,这些值是根据不同的启发法、直觉和个人经验/偏好选择的。一个好的起点是 Pareto principle (80-20)。

有时,使用简单的分割并不是一种选择,因为您可能拥有太多数据 - 在这种情况下,如果您的算法计算复杂,您可能需要对数据进行采样或使用较小的测试集。一个重要的部分是随机选择您的数据。权衡非常简单:测试数据较少 = 算法的性能会有更大的方差。 训练数据较少 = 参数估计会有较大方差。

对我个人来说,比分割大小更重要的是,您显然不应该总是在同一个测试分割上只执行一次测试,因为它可能会有偏差(您的分割可能是幸运的,也可能是不幸的)。这就是为什么您应该对多种配置进行测试(例如,您运行测试 X 次,每次选择不同的 20% 进行测试)。在这里,您可能会遇到所谓的模型方差的问题 - 不同的分割将导致不同的值。这就是为什么您应该多次运行测试并对结果进行平均。

使用上述方法,您可能会发现测试所有可能的拆分很麻烦。一种行之有效的数据分割方法是所谓的cross validation。正如您在 wiki 文章中所读到的,它有多种类型(详尽的和非详尽的)。请特别注意k 折交叉验证

关于machine-learning - 分割训练和测试数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31771627/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com