tensorflow - TensorFlow 中的梯度下降、Adagrad 与 Momentum-6ren

tensorflow - TensorFlow 中的梯度下降、Adagrad 与 Momentum

转载作者：行者123 更新时间：2023-12-02 23:23:17

33

4

我正在研究TensorFlow以及如何使用它，即使我不是神经网络和深度学习方面的专家(只是基础知识)。

根据教程，我不明白这三个优化器之间的真正和实际的差异。我看API我了解原理，但我的问题是:

<强>1。什么时候最好使用其中一种而不是其他？

<强>2。有需要了解的重要差异吗？

最佳答案

根据我的理解，简单解释一下:

势头 helps SGD 沿着相关方向导航并软化不相关的振荡。它只是将上一步的方向的一部分添加到当前步骤。这实现了正确方向上的速度放大并软化了错误方向上的振荡。该分数通常在 (0, 1) 范围内。使用自适应动量也是有意义的。在学习之初，大的动量只会阻碍你的进步，因此使用 0.01 之类的值是有意义的，一旦所有高梯度消失，你就可以使用更大的动量。动量有一个问题:当我们非常接近目标时，大多数情况下我们的动量非常高，而且它不知道应该放慢速度。这可能会导致它错过最小值或在最小值附近振荡
nesterov 加速梯度通过提早开始减速来克服这个问题。在动量中，我们首先计算梯度，然后在该方向上跳跃，该方向被我们之前拥有的任何动量放大。 NAG 做同样的事情，但顺序不同:首先我们根据存储的信息进行大跳跃，然后计算梯度并进行小修正。这种看似无关紧要的变化带来了显着的实际加速。
AdaGrad 或自适应梯度允许学习率根据参数进行调整。它对不频繁的参数执行较大的更新，对频繁的参数执行较小的更新。因此，它非常适合稀疏数据(NLP 或图像识别)。另一个优点是它基本上消除了调整学习率的需要。每个参数都有自己的学习率，并且由于算法的特殊性，学习率是单调递减的。这导致了最大的问题:在某个时间点学习率太小以至于系统停止学习。
AdaDelta resolves AdaGrad 中学习率单调递减的问题。在 AdaGrad 中，学习率的计算方式大致为 1 除以平方根之和。在每个阶段，您都会向总和添加另一个平方根，这会导致分母不断增加。在 AdaDelta 中，它不是对所有过去的平方根求和，而是使用滑动窗口，这允许总和减少。 RMSprop 与 AdaDelta 非常相似
Adam 或自适应动量是一种类似于 AdaDelta 的算法。但除了存储每个参数的学习率之外，它还单独存储每个参数的动量变化。
一个few visualizations :

我想说 SGD、Momentum 和 Nesterov 不如后 3 个。

关于tensorflow - TensorFlow 中的梯度下降、Adagrad 与 Momentum，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36162180/

33

4

0

文章推荐： elasticsearch - 无法使用Searchkit连接到Elasticsearch

文章推荐： powershell - 使用 PowerShell 将 SSL 证书绑定(bind)到端口

文章推荐： video - 图像和音频无损文件格式

文章推荐： sql-server - SQL Server SP_SEND_DBMAIL 图像文件附件

python - 在 Python 中实现 Adagrad
我正尝试在 Python 中实现 Adagrad。出于学习目的，我以矩阵分解为例。我会使用 Autograd用于计算梯度。我的主要问题是实现是否正常。问题描述给定一个矩阵 A (M x N)，其
tensorflow - TensorFlow 中的梯度下降、Adagrad 与 Momentum
我正在研究TensorFlow以及如何使用它，即使我不是神经网络和深度学习方面的专家(只是基础知识)。根据教程，我不明白这三个优化器之间的真正和实际的差异。我看API我了解原理，但我的问题是: 1。
python - 如何在 python theano 中编写 adagrad
为了简化问题，假设一个维度(或特征)已经更新了 n 次，下次我看到该特征时，我想将学习率设置为 1/n。我想出了这些代码: def test_adagrad(): embedding = the
python - Tensorflow:您在 Adam 和 Adagrad 中设置的学习率只是初始学习率吗？
我正在阅读此博客 https://smist08.wordpress.com/2016/10/04/the-road-to-tensorflow-part-10-more-on-optimizatio
python - Adagrad 如何在 Keras 中工作？ Keras Optimizer 中的 self.weights 是什么意思？
比如Keras的Adagrad的实现一直是: class Adagrad(Optimizer): """Adagrad optimizer. It is recommended to leave th

首页

博学

6Ren·AI

商城

tensorflow - TensorFlow 中的梯度下降、Adagrad 与 Momentum