gpt4 book ai didi

machine-learning - 训练-测试分离的缺点

转载 作者:行者123 更新时间:2023-11-30 08:53:09 24 4
gpt4 key购买 nike

“训练/测试分割确实有其危险 — 如果我们进行的分割不是随机的怎么办?如果我们的数据子集只有来自某个州的人员、具有特定收入水平但没有其他收入水平的员工怎么办? ,只有女性还是只有特定年龄的人?(想象一下按其中之一排序的文件)。这将导致过度拟合,即使我们试图避免它!这就是交叉验证的用武之地。以上是博客中提到的大部分内容,我不太明白。我认为缺点不是过拟合而是欠拟合。当我们分割数据时,假设状态A和B成为训练数据集,并尝试预测与训练数据完全不同的状态C,这将导致欠拟合。有人可以告诉我为什么大多数博客都说“测试分割”会导致过度拟合吗?

最佳答案

谈论selection bias会更正确。 ,您的问题所描述的。

选择偏差并不能真正与过度拟合相关,而是与拟合有偏差的集合相关,因此模型将无法正确概括/预测。

换句话说,无论“拟合”还是“过度拟合”适用于有偏差的训练集,这仍然是错误的。

“over”前缀的语义张力就是这样。这意味着偏见。

想象一下你没有选择偏见。在这种情况下,当您过度拟合(即使是健康的集合)时,根据过度拟合的定义,您仍然会使模型偏向于您的训练集。

在这里,您的起始训练集已经有偏差。因此任何拟合,即使是“正确拟合”,都会有偏差,就像过度拟合时发生的情况一样。

关于machine-learning - 训练-测试分离的缺点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54904680/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com