tensorflow - Adam 优化器真的是 RMSprop 加动量吗？如果是，为什么它没有动量参数？-6ren

tensorflow - Adam 优化器真的是 RMSprop 加动量吗？如果是，为什么它没有动量参数？

转载作者：行者123 更新时间：2023-12-04 10:09:51

26

4

这是一个link tensorflow 优化器。您可以看到，RMSprop 将动量作为参数，而 Adam 没有这样做。所以我很困惑。 Adam 优化假装是具有动量的 RMSprop 优化，如下所示:

Adam = RMSprop + 动量

但是为什么 RMSprop 有动量参数而 Adam 没有呢？

最佳答案

虽然“Adam is RMSProp with Momentum”这一表述确实被广泛使用，但这只是一个非常粗略的简写描述，不应该只看其表面值(value)；已经在原版Adam paper ，明确澄清(第 6 页):

There are a few important differences between RMSProp with momentum and Adam: RMSProp with momentum generates its parameter updates using a momentum on the rescaled gradient, whereas Adam updates are directly estimated using a running average of first and second moment of the gradient.

有时，作者明确表示主题表达只是一个松散的描述，例如在(强烈推荐)Overview of gradient descent optimization algorithms (强调):

Adam also keeps an exponentially decaying average of past gradients mt, similar to momentum.

或在 Stanford CS231n: CNNs for Visual Recognition (再次强调):

Adam is a recently proposed update that looks a bit like RMSProp with momentum.

也就是说，其他一些框架确实包含 Adam 的 momentum 参数，但这实际上是 beta1 参数；这是CNTK :

momentum (float, list, output of momentum_schedule()) – momentum schedule. Note that this is the beta1 parameter in the Adam paper. For additional information, please refer to the this CNTK Wiki article.

所以，不要太从字面上理解，也不要因此而失眠。

关于tensorflow - Adam 优化器真的是 RMSprop 加动量吗？如果是，为什么它没有动量参数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61381648/

26

4

0

文章推荐： javascript - 使用错误和 helperText react Material UI 表单验证

文章推荐： reactjs - 单击 testcafe 中的范围下拉菜单

文章推荐： python - 使用公共(public) key 在数据帧上广播系列乘法

文章推荐： symfony - 在 Symfony 中覆盖 Twig 函数

python - 有没有办法减少 RMSProp 的代码量
我有一些简单的循环神经网络的代码，想知道是否有办法减少更新阶段所需的代码量。我的代码是这样的: class RNN(object): def__init___(self, data, hidd
Tensorflow 对象检测 : use Adam instead of RMSProp
我正在用这个 [.config 文件][1] 训练一个 CNN: rms_prop_optimizer: { learning_rate: { exponential_decay_
machine-learning - RMSProp 与在线(随机)学习兼容吗？
快速提问: RMSProp 优化器是否与在线(随机，每轮更新权重)学习兼容？我能读到的只是关于RMSProp与小批量或全批量更新一起使用，但似乎没有一个明确表明在线随机学习是不可能的。最佳答案非
machine-learning - 为什么 RMSProp 被视为 "leaky"？
decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2 我对上面的评论措辞感到困惑，他们谈论了 RMSProp 优化器的“泄漏
tensorflow - Adam 优化器真的是 RMSprop 加动量吗？如果是，为什么它没有动量参数？
这是一个link tensorflow 优化器。您可以看到，RMSprop 将动量作为参数，而 Adam 没有这样做。所以我很困惑。 Adam 优化假装是具有动量的 RMSprop 优化，如下所示:
python - 模型编译部分的 RMSprop 优化器，在 keras 中不起作用
我使用 tensorflow 2.1.0 和 keras 2.2.4tf当我想编译我的模型时[这里是我使用的一段代码]: model.compile(loss='binary_crossentropy
python - 模型编译部分的 RMSprop 优化器，在 keras 中不起作用
我使用 tensorflow 2.1.0 和 keras 2.2.4tf当我想编译我的模型时[这里是我使用的一段代码]: model.compile(loss='binary_crossentropy
tensorflow - Inception-v3 使用 RMSProp epsilon=1
我刚刚阅读了 Inception-v3 paper ，以及作者发布的训练代码。我发现什么时候做 RMSProp 优化，作者使用epsilon=1 .但是，据我所知，人们通常使用 1e-10 或一些较小
machine-learning - 我应该避免将 L2 正则化与 RMSProp 结合使用吗？
我应该避免将 L2 正则化与 RMSprop 和 NAG 结合使用吗？ L2 正则化项会干扰梯度算法 (RMSprop)？最诚挚的问候，最佳答案似乎有人已经解决了(2018)问题(2017)。
machine-learning - tensorflow 中的 RMSProp 优化器是否使用 Nesterov 动量？
当您创建 RMSPRop 优化器时，它会要求提供动量值。这个势头是什么？是内斯特洛夫还是另一个？如何在 tf 中使用 Nesterov 动量和 RMSProp？这里的文档字符串中有一个公式: htt
machine-learning - 使用 Caffe 没有提高 RMSprop、Adam、AdaDelta 测试精度
我正在 Tesla K40 上的图像数据集上使用 Caffe 进行微调。使用batch size=47、solver_type=SGD、base_lr=0.001、lr_policy="step"、m
python - ValueError : You called `set_weights(weights)` on optimizer RMSprop with a weight list of length 3, 但优化器期望权重为 0
我有一个以“h5”格式保存的模型。在使用编译模型后，我正在尝试恢复训练并尝试加载优化器的权重 model.optimizer.set_weights(weights_list) 哪里weights_

首页

博学

6Ren·AI

商城

tensorflow - Adam 优化器真的是 RMSprop 加动量吗？如果是，为什么它没有动量参数？