gpt4 book ai didi

neural-network - 我们应该为 adam 优化器做学习率衰减吗

转载 作者:行者123 更新时间:2023-12-03 05:56:02 27 4
gpt4 key购买 nike

我正在使用 Adam 优化器训练图像定位网络,有人建议我使用指数衰减。我不想尝试这个,因为 Adam 优化器本身会降低学习率。但那家伙坚持说他以前就这么做过。那么我应该这样做吗?你的建议背后有什么理论依据吗?

最佳答案

这要看情况。 ADAM 使用单独的学习率更新任何参数。这意味着网络中的每个参数都有一个特定的相关学习率。

但是每个参数的单个学习率是使用 lambda(初始学习率)作为上限计算的。这意味着每个学习率可以从 0(无更新)到 lambda(最大更新)变化。

确实,学习率会在训练步骤中自行调整,但如果您想确保每个更新步骤不超过 lambda,您可以使用指数衰减或其他方式降低 lambda。当之前关联的 lambda 参数的计算损失停止减少时,它可以帮助减少最后一步训练期间的损失。

关于neural-network - 我们应该为 adam 优化器做学习率衰减吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39517431/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com