gpt4 book ai didi

validation - 训练数据的分布与测试/预测的分布

转载 作者:行者123 更新时间:2023-11-30 08:42:52 24 4
gpt4 key购买 nike

训练数据代表的分布是否需要反映测试数据和您预测的数据的分布?我可以通过查看每个功能的分布并将该分布与我预测或测试的数据进行比较来衡量训练数据的质量吗?理想情况下,训练数据应足以代表现实世界的分布。

最佳答案

简短的答案:类似的范围将是一个好主意。
长答案:有时(很少)不会有问题,但让我们检查一下时间。

在理想情况下,您的模型将完美地捕捉真实现象。想象最简单的情况:线性模型y = x。训练数据是否无噪音(或有可忍受的噪音)。您的线性回归自然会落在近似等于y = x的模型上。即使在训练范围之外,模型的泛化也将几乎完美。如果您的火车数据为{1:1,2:2,3:3,4:4,5:5,6:6,7:7,8:8,9:9,10:10}。测试点500将很好地映射到函数上,返回500。

在大多数建模方案中,几乎肯定不是这种情况。如果训练数据足够多,并且模型适当复杂(并且仅此而已),那么您就是黄金。

问题在于很少有函数(以及相应的自然现象)-尤其是当我们考虑非线性函数时-如此清晰地扩展到训练范围之外的数据。想象一下抽样办公室温度对员工舒适度的影响。如果只看40度到60度的温度。线性函数将在​​训练数据中表现出色。奇怪的是,如果您在60到80上进行测试,则映射将中断。在这里,问题在于您对数据具有足够代表性的主张充满信心。

现在让我们考虑噪音。想象一下,您确切地知道真实世界的功能是什么:正弦波。更好的是,系统会告知您其幅度和相位。您不知道的是它的频率。您有一个介于1到100之间的可靠样本,您所拟合的函数与训练数据非常吻合。现在,如果有足够的噪音,您可能会错误地估计一根头发的频率。当您在训练范围附近进行测试时,结果并不差。在训练范围之外,事情开始变得不妙。随着您越来越远离训练范围,实际功能和功能会根据它们的相对频率而发散和收敛。有时,残差似乎很好;有时他们很可怕。

您检查变量分布的想法存在问题:变量之间的交互。即使每个变量在训练和测试中达到适当的平衡,变量之间的关系也可能会有所不同(联合分布)。举一个纯人工的例子,考虑到您正在预测一个人在任何给定时间怀孕的可能性。在您的训练集中,您有20至30岁的女性和30至40岁的男性。在测试中,您拥有相同的男性和女性百分比,但是年龄范围有所不同。独立地,变量看起来非常匹配!但在您的训练集中,您可以很容易得出结论:“只有30岁以下的人会怀孕”。奇怪的是,您的测试集将证明完全相反!问题在于您的预测是从多元空间进行的,但是您正在考虑的分布是单变量的。但是,考虑连续变量彼此之间的联合分布(并适当考虑类别变量)是一个好主意。理想情况下,您的拟合模型应该可以访问与测试数据相似的范围。

从根本上讲,问题在于从有限的培训空间进行推断。如果适合于训练空间的模型可以泛化,则可以泛化;否则,可以泛化。最终,通常最好的方法是提供一个分布良好的培训集,以最大程度地提高捕获基础功能复杂性的可能性。

真有趣的问题!我希望答案有些深刻。随着资源的涌现,我将继续在此基础上继续前进!让我知道是否还有任何疑问!

编辑:我认为将来的读者应该阅读评论中的观点。
理想情况下,培训数据绝不应以任何方式影响测试数据。这包括检查分布,联合分布等。如果有足够的数据,则训练数据中的分布应收敛于测试数据中的分布(请考虑均值,大数定律)。匹配分布的操作(例如训练/测试拆分之前的z评分)从根本上使性能指标偏向您。拆分火车和测试数据的合适技术应类似于分层k折以进行交叉验证。

关于validation - 训练数据的分布与测试/预测的分布,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48143318/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com