- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
好吧,我一直在阅读一些有关 tensorflow 中 AdamOptimizer 的帖子。我认为至少在像我这样的神经网络初学者中存在一些困惑。
如果我理解正确的话,tf.train.AdamOptimizer 保持所谓的“自适应学习率”。我认为这个学习率会随着时间的增加而变小。
但是,当我绘制学习率缩放函数时(取自 docs) ,
t <- t + 1
lr_t <- learning_rate * sqrt(1 - beta2^t) / (1 - beta1^t)
这就是我得到的:
t = np.arange(200)
result = np.sqrt(1-0.999**t)/(1-0.9**t)
plt.plot(result)
plt.show
因此,对于 t = 1,用户选择的学习率的值乘以 0.3 然后它会很快减小,直到其值的 0.15,然后随着时间的推移而增加,慢慢接近极限 = 用户选择的学习率。
是不是有点奇怪?我想我在某个地方错了,但我预计学习率会从较高的值开始,然后逐渐向较小的值下降。
最佳答案
你不能像这样真正绘制 Adam 学习率,因为 Adam 是一个动量优化器。每个步骤应用的梯度取决于先前步骤梯度的平均值和标准差的移动平均值。
一般来说,不能保证学习收敛,原始学习率 alpha
本身不会被 Adams 直接改变。它仅使用梯度动量来重新缩放。只有当梯度的均值和标准差在达到全局最小值时随着时间的推移而减小时,学习才能很好地收敛,这对于简单的神经网络来说通常是这种情况。
然而,对于高度随机的问题,人们可能仍然需要实现某种形式的学习率衰减来抑制最佳参数周围的“振荡”,或者至少使它们更小以确保真正收敛。
如果您确实想了解其具体工作原理,您可能需要阅读 Adam paper ,它比乍一看要简单得多。
关于python - Tensorflow Adam 优化器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49969957/
ADAM 的并发连接数是否有限制。是可配置的吗? -- 可以建立多少来自同一用户的并发连接?-- 可以建立多少个来自不同用户的并发连接? 任何帮助/指点将不胜感激。 谢谢。 最佳答案 理论限制是 65
我最初在 Keras 中开发了一个分类器,我的优化器很容易在其中应用衰减。 adam = keras.optimizers.Adam(decay=0.001) 最近我试图将整个代码更改为纯 Tenso
我已经设置了一个 ADAM 实例并添加了一些测试用户。在 c# 中,我可以使用 Windows 帐户绑定(bind)到 ADAM,但我无法使用其中一个 ADAM 用户进行绑定(bind)。 (我可以在
我一直在试用 TensroFlow v2 beta 并且我正在试用 tf.keras 模型。 当我编译模型并将优化器选择为字符串 'adam' 时。可以正确训练模型: model.compile(op
由于Adam Optimizer保留了一对移动平均值,例如梯度的均值/方差,因此我想知道它应该如何正确处理权重衰减。我已经看到了两种实现方法。 仅基于客观损失从梯度中更新均值/方差,在每个小批量中明确
我正在尝试估计收缩压。我将 PPG 特征 (27) 放入 ANN 中。我得到的结果如下。这是一个好的学习率吗?如果不是,是高还是低?这是我的结果。 我将学习率设置为 0.000001。我认为还是太高了
我正在尝试使用 .Net 中的 DirectorySearcher 来查询残疾用户。 我正在使用一个与此处发布的非常相似的相当快的列表功能。 Enumerating Large Groups With
根据Adam的伪代码: 我写了一些代码: from matplotlib import pyplot as plt import numpy as np # np.random.seed(42) nu
根据Adam的伪代码: 我写了一些代码: from matplotlib import pyplot as plt import numpy as np # np.random.seed(42) nu
我正在使用 Tensorflow Adam 方法来优化随机函数,该函数(几乎)与神经网络无关,而是与概率推理有关。 Adam 在寻找成本函数的全局最优值方面工作得很好,但是我的变量是有界的,而 Ada
我正在学习如何使用优化器在 Tensor Flow 中训练模型。因此,我构建了一个线性模型,创建了一个玩具数据集,并使用 AdamOptimizer 和 GradientDescentOptimize
好吧,我一直在阅读一些有关 tensorflow 中 AdamOptimizer 的帖子。我认为至少在像我这样的神经网络初学者中存在一些困惑。 如果我理解正确的话,tf.train.AdamOptim
我正在学习 Python 深度学习类(class),但我陷入了示例的以下几行内容: regressor.compile(optimizer = 'adam', loss = 'mean_squared
我正在训练我的方法。我得到的结果如下。这是一个好的学习率吗?如果不是,是高还是低?这是我的结果 lr_policy: "step" gamma: 0.1 stepsize: 10000 power:
我正在编写一个使用 Active Directory 来验证用户的网站。我无权访问我可以以任何方式编辑的 Active Directory 实例。 我听说有些人正在使用 Active Director
我正在开发一个在 div 中带有 iframe 的网页。即使在 CSS 中将宽度设置为 100% 后,我也无法使 iframe 拉伸(stretch)到其父 div 的整个宽度。 我做错了什么。请看看
我在编写一些 Java 代码时遇到问题,这些代码将在 ADAM 中创建一个容器/文件夹,其中容器名称和专有名称包含正斜杠。 例如 cn=测试/测试 dn=CN=测试/测试,CN=TestStore,D
是否每个人都以编程方式创建过自定义属性? (目前我只是使用了 Scheme 管理单元) 理想情况下,我希望(管理员)用户能够通过 Web 界面管理 ADAM 实例。我正在编写 Web 服务以能够执行诸
我正在尝试运行 AdamOptimizer 进行一步训练,但未成功。 optimizer = tf.train.AdamOptimizer(learning_rate) init = tf.globa
考虑以下信息: 初始学习率:0.0002 衰减系数:0.7 ephocs:70 我的问题是选择衰减步骤,使衰减每两个时期发生一次。我该如何在 Keras 中解决这个问题? 这是指数衰减学习率的公式:
我是一名优秀的程序员,十分优秀!