gpt4 book ai didi

使用 Dropout 时的验证损失

转载 作者:行者123 更新时间:2023-11-30 08:31:12 28 4
gpt4 key购买 nike

我试图了解辍学对验证平均绝对误差(非线性回归问题)的影响。

无辍学

enter image description here

辍学率为 0.05

enter image description here

辍学率为 0.075 enter image description here

在没有任何 dropouts 的情况下,验证损失大于训练损失,如1所示。我的理解是,验证损失应该只比训练损失稍大一点,就可以达到良好的拟合效果。

我小心翼翼地增加了 dropout,以便验证损失接近训练损失,如 2 中所示。 。 Dropout 仅在训练期间应用,而不在验证期间应用,因此验证损失低于训练损失。

最后,dropout 进一步增加,验证损失再次超过 3 中的训练损失。 .

这三者中哪一个应该被认为是最合适的?

根据 Marcin Możejko 的回应,我对 4 中所示的三个测试进行了预测。 。 “Y”轴显示 RMS 误差而不是 MAE。 “无丢失”模型给出了最好的结果。

enter image description here

最佳答案

嗯 - 这是一个非常好的问题。在我看来 - 最低的验证分数(在单独的测试集上确认)是最合适的。请记住,最后 - 模型在全新数据上的性能是最关键的事情,而模型在训练集上表现更好这一事实并不那么重要。

此外 - 我认为你的模型通常可能不适合 - 你可以尝试将其扩展到例如有更多的层或神经元,并使用 dropout 对其进行一点修剪,以防止示例内存。

如果我的假设被证明是错误的 - 请记住 - 仍然有可能某些数据模式仅存在于验证集上(在中等规模数据集的情况下相对常见)是什么导致了训练和测试的分歧损失。此外 - 我认为即使你的损失值在没有丢失的情况下饱和,仍然有通过简单增加纪元数量来改进的空间,因为损失似乎有更小的趋势。

我建议您尝试的另一种技术是降低平台期的学习率(使用示例 this 回调),因为您的模型似乎需要以较低的值学习率进行细化。

关于使用 Dropout 时的验证损失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48393438/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com