machine-learning - Adam 方法的学习率好吗？-6ren

machine-learning - Adam 方法的学习率好吗？

转载作者：行者123 更新时间：2023-11-30 08:22:16

28

4

我正在训练我的方法。我得到的结果如下。这是一个好的学习率吗？如果不是，是高还是低？这是我的结果

lr_policy: "step"
gamma: 0.1
stepsize: 10000
power: 0.75
# lr for unnormalized softmax
base_lr: 0.001
# high momentum
momentum: 0.99
# no gradient accumulation
iter_size: 1
max_iter: 100000
weight_decay: 0.0005
snapshot: 4000
snapshot_prefix: "snapshot/train"
type:"Adam"

这是引用

With low learning rates the improvements will be linear. With high learning rates they will start to look more exponential. Higher learning rates will decay the loss faster, but they get stuck at worse values of loss

最佳答案

学习率看起来有点高。根据我的口味，曲线下降得太快并且很快就变平。如果我想获得额外的性能，我会尝试 0.0005 或 0.0001 作为基本学习率。如果您发现这不起作用，您可以在几个时期后退出。

您必须问自己的问题是您需要多少性能以及您距离实现所需性能有多近。我的意思是，您可能正在为特定目的训练神经网络。通常，您可以通过增加网络容量来获得更多性能，而不是微调学习率，即使不完美，也已经相当不错了。

关于machine-learning - Adam 方法的学习率好吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42966393/

28

4

0

文章推荐： javascript - 我怎样才能捕捉到被拒绝的 promise ？

文章推荐： javascript - 在 render 方法中调用 eventHandler 中的 setState

文章推荐： java - (JAVA) 如何查看AWS EMR中Step的状态？

adam - ADAM 允许多少个并发连接？
ADAM 的并发连接数是否有限制。是可配置的吗？ -- 可以建立多少来自同一用户的并发连接？-- 可以建立多少个来自不同用户的并发连接？任何帮助/指点将不胜感激。谢谢。最佳答案理论限制是 65
python - Tensorflow Adam 优化器 vs Keras Adam 优化器
我最初在 Keras 中开发了一个分类器，我的优化器很容易在其中应用衰减。 adam = keras.optimizers.Adam(decay=0.001) 最近我试图将整个代码更改为纯 Tenso
c# - 从 C# 中针对 ADAM 对 ADAM 用户进行身份验证 - 无法绑定(bind)
我已经设置了一个 ADAM 实例并添加了一些测试用户。在 c# 中，我可以使用 Windows 帐户绑定(bind)到 ADAM，但我无法使用其中一个 ADAM 用户进行绑定(bind)。 (我可以在
python - 默认 Adam 优化器在 tf.keras 中不起作用，但字符串 `adam` 可以
我一直在试用 TensroFlow v2 beta 并且我正在试用 tf.keras 模型。当我编译模型并将优化器选择为字符串 'adam' 时。可以正确训练模型: model.compile(op
tensorflow - Adam Optimizer减轻体重的正确方法是什么
由于Adam Optimizer保留了一对移动平均值，例如梯度的均值/方差，因此我想知道它应该如何正确处理权重衰减。我已经看到了两种实现方法。仅基于客观损失从梯度中更新均值/方差，在每个小批量中明确
python - Adam 方法的学习率合适吗？
我正在尝试估计收缩压。我将 PPG 特征 (27) 放入 ANN 中。我得到的结果如下。这是一个好的学习率吗？如果不是，是高还是低？这是我的结果。我将学习率设置为 0.000001。我认为还是太高了
.net - 查询已禁用帐户的 ADAM/ADLDS
我正在尝试使用 .Net 中的 DirectorySearcher 来查询残疾用户。我正在使用一个与此处发布的非常相似的相当快的列表功能。 Enumerating Large Groups With
algorithm - 直观理解 Adam 优化器
根据Adam的伪代码: 我写了一些代码: from matplotlib import pyplot as plt import numpy as np # np.random.seed(42) nu
algorithm - 直观理解 Adam 优化器
根据Adam的伪代码: 我写了一些代码: from matplotlib import pyplot as plt import numpy as np # np.random.seed(42) nu
python - 具有可变边界的 Tensorflow Adam
我正在使用 Tensorflow Adam 方法来优化随机函数，该函数(几乎)与神经网络无关，而是与概率推理有关。 Adam 在寻找成本函数的全局最优值方面工作得很好，但是我的变量是有界的，而 Ada
python - 为什么 Adam 优化器不起作用？
我正在学习如何使用优化器在 Tensor Flow 中训练模型。因此，我构建了一个线性模型，创建了一个玩具数据集，并使用 AdamOptimizer 和 GradientDescentOptimize
python - Tensorflow Adam 优化器
好吧，我一直在阅读一些有关 tensorflow 中 AdamOptimizer 的帖子。我认为至少在像我这样的神经网络初学者中存在一些困惑。如果我理解正确的话，tf.train.AdamOptim
python - 小批量梯度下降、adam 和纪元
我正在学习 Python 深度学习类(class)，但我陷入了示例的以下几行内容: regressor.compile(optimizer = 'adam', loss = 'mean_squared
machine-learning - Adam 方法的学习率好吗？
我正在训练我的方法。我得到的结果如下。这是一个好的学习率吗？如果不是，是高还是低？这是我的结果 lr_policy: "step" gamma: 0.1 stepsize: 10000 power:
testing - 如何使用 ADAM 运行单元测试？
我正在编写一个使用 Active Directory 来验证用户的网站。我无权访问我可以以任何方式编辑的 Active Directory 实例。我听说有些人正在使用 Active Director
css - Adamant Iframe 宽度
我正在开发一个在 div 中带有 iframe 的网页。即使在 CSS 中将宽度设置为 100% 后，我也无法使 iframe 拉伸(stretch)到其父 div 的整个宽度。我做错了什么。请看看
Java、LDAP、ADAM - 如何创建名称中包含正斜杠的容器
我在编写一些 Java 代码时遇到问题，这些代码将在 ADAM 中创建一个容器/文件夹，其中容器名称和专有名称包含正斜杠。例如 cn=测试/测试 dn=CN=测试/测试，CN=TestStore，D
c# - 在 ADAM 中以编程方式管理自定义属性
是否每个人都以编程方式创建过自定义属性？ (目前我只是使用了 Scheme 管理单元) 理想情况下，我希望(管理员)用户能够通过 Web 界面管理 ADAM 实例。我正在编写 Web 服务以能够执行诸
python - 运行 Adam 优化器
我正在尝试运行 AdamOptimizer 进行一步训练，但未成功。 optimizer = tf.train.AdamOptimizer(learning_rate) init = tf.globa
tensorflow - Keras 中 Adam 优化器的指数衰减学习率参数
考虑以下信息: 初始学习率:0.0002 衰减系数:0.7 ephocs:70 我的问题是选择衰减步骤，使衰减每两个时期发生一次。我该如何在 Keras 中解决这个问题？这是指数衰减学习率的公式:

首页

博学

6Ren·AI

商城

machine-learning - Adam 方法的学习率好吗？