- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在研究TensorFlow以及如何使用它,即使我不是神经网络和深度学习方面的专家(只是基础知识)。
根据教程,我不明白这三个优化器之间的真正和实际的差异。我看API我了解原理,但我的问题是:
<强>1。什么时候最好使用其中一种而不是其他?
<强>2。有需要了解的重要差异吗?
最佳答案
根据我的理解,简单解释一下:
Adam 或自适应动量是一种类似于 AdaDelta 的算法。但除了存储每个参数的学习率之外,它还单独存储每个参数的动量变化。
我想说 SGD、Momentum 和 Nesterov 不如后 3 个。
关于tensorflow - TensorFlow 中的梯度下降、Adagrad 与 Momentum,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36162180/
我正尝试在 Python 中实现 Adagrad。出于学习目的,我以矩阵分解为例。我会使用 Autograd用于计算梯度。 我的主要问题是实现是否正常。 问题描述 给定一个矩阵 A (M x N),其
我正在研究TensorFlow以及如何使用它,即使我不是神经网络和深度学习方面的专家(只是基础知识)。 根据教程,我不明白这三个优化器之间的真正和实际的差异。我看API我了解原理,但我的问题是: 1。
为了简化问题,假设一个维度(或特征)已经更新了 n 次,下次我看到该特征时,我想将学习率设置为 1/n。 我想出了这些代码: def test_adagrad(): embedding = the
我正在阅读此博客 https://smist08.wordpress.com/2016/10/04/the-road-to-tensorflow-part-10-more-on-optimizatio
比如Keras的Adagrad的实现一直是: class Adagrad(Optimizer): """Adagrad optimizer. It is recommended to leave th
我是一名优秀的程序员,十分优秀!