machine-learning - epsilon 超参数如何影响 tf.train.AdamOptimizer？-6ren

machine-learning - epsilon 超参数如何影响 tf.train.AdamOptimizer？

转载作者：行者123 更新时间：2023-11-30 08:33:12

25

4

当我设置 epsilon=10e-8 时，AdamOptimizer 不起作用。当我将其设置为 1 时，它工作得很好。

最佳答案

t <- t + 1

lr_t <- learning_rate * sqrt(1 - beta2^t) / (1 - beta1^t)

m_t <- beta1 * m_{t-1} + (1 - beta1) * g

v_t <- beta2 * v_{t-1} + (1 - beta2) * g * g

where g is gradient

variable <- variable - lr_t * m_t / (sqrt(v_t) + epsilon)

epsilon是为了避免上式中梯度接近零时更新变量时出现被零除的错误。因此，理想情况下，epsilon 应该是一个很小的值。但是，分母中的 epsilon 较小会产生较大的权重更新，并且通过后续归一化，较大的权重将始终归一化为 1。

所以，我猜当你用小 epsilon 训练时，优化器会变得不稳定。

权衡是，epsilon(和分母)越大，权重更新就越小，因此训练进度就会越慢。大多数时候你希望分母能够变小。通常，epsilon 值大于 10e-4 效果更好。

The default value of 1e-8 for epsilon might not be a good default in general. For example, when training an Inception network on ImageNet a current good choice is 1.0 or 0.1. check here

关于machine-learning - epsilon 超参数如何影响 tf.train.AdamOptimizer？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43221065/

25

4

0

文章推荐： machine-learning - 故意过度拟合神经网络

文章推荐： java - Spring - 如何在局部 View 中访问对象

文章推荐： machine-learning - keras.fit() 重新初始化权重

文章推荐： machine-learning - 使用tensorflow和python进行值预测

machine-learning - 什么是 epsilon/k 它是如何出现在 epsilon 贪婪算法中的
据说它会选择概率为 1-epsilon 的经验平均值最高的臂，在第 no 页中为概率编写的方程中，epsilon/k 是如何添加到它的(以及用于随机概率选择的 epsilon/k) :6篇论文Algo
machine-learning - epsilon 贪婪 q 学习中的 epsilon 和学习率衰减
据我所知，epsilon 标志着探索和利用之间的权衡。一开始，你希望 epsilon 较高，这样你才能取得大的进步并学到东西。当您了解 future 的奖励时，epsilon 应该衰减，以便您可以利用
regex - 如何在正则表达式中表示 epsilon？
教科书教我们使用 epsilon (ε) 编写正则表达式符号，但是如何将该符号直接转换为代码而不必完全修改我的正则表达式？例如，我将如何编写这个正则表达式来捕获以 a 开头或结尾的所有小写字符串。
乘法时的 JavaScript Epsilon
我在想 ES6 中的相等是封闭的情况，就像这个基本的例子: x = 0.2; y = 0.3; z = 0.1; equal = (Math.abs(x - (y - z)) < Number.EPS
c - 各种浮点值的 epsilon
有一个最接近零的FLT_MIN常量。如何最接近某个数字值？举个例子: float nearest_to_1000 = 1000.0f + epsilon; // epsilon must be th
c++ - 球坐标映射创建双 epsilons
这是一张图片:http://i.imgur.com/MRvz24u.gif 所以我可以说出问题是什么，我用于球坐标的 epsilon(或任何符号)重复出现。所以我计算点数的方式是: double th
c - 确定浮点变量的当前精度/epsilon
我正在尝试以最小值分隔两个等值的 double 。上下文是一个事件模拟。我不希望事件同时发生，因此我将设置为发生新事件的时间增加了一个最小值。 (这很烦人，经常发生(自行实现的随机数生成器)，所以我实
Python epsilon 不是最小的数
sys.float_info.epsilon 返回什么？在我的系统上我得到: >>> sys.float_info.epsilon 2.220446049250313e-16 >>> sys.flo
c - 浮点运算和机器 epsilon
我正在尝试计算 float 类型的 epsilon 值的近似值(我知道它已经在标准库中)。这台机器上的 epsilon 值是(打印有一些近似值): FLT_EPSILON = 1.192093e-
C# Decimal.Epsilon
为什么 Decimal 数据类型没有 Epsilon 字段？ From the manual ，decimal 值的范围是 ±1.0 × 10e−28 到 ±7.9 × 10e28。 The desc
Java 双重比较 epsilon
我编写了一个类，用 Java 中的两个 double 来测试相等、小于和大于。我的一般情况是比较可以精确到半美分的价格。 59.005 与 59.395 相比。我为这些情况选择的 epsilon 是否
java - 最小的 epsilon 使比较结果发生变化
什么是最小的浮点值 A 使得 (x = 0 && pOppositeToCurrentCave.hasLeftVertexTo(otherLeftX)) { otherLeftX = pOpp
floating-point - "epsilon"真的能保证浮点计算中的任何东西吗？
为了简化问题，假设我想计算表达式 a / (b - c)在 float s。为了确保结果有意义，我可以检查 b和 c相等: float EPS = std::numeric_limits::epsi
haskell - 带有内置 epsilon 的包裹浮点类型
我正在进行一些几何计算，这需要我比较基于 double 的坐标。我通常通过添加一些人工 epsilon 来处理这种情况下的浮点不准确问题。这很常见，并且有很多关于该主题的信息。 http://floa
c++ - 四倍精度的 Epsilon (gcc)
根据维基百科，不同精度数据类型的布局是 single precision :指数 (e):8 位，小数 (f):23 位 double precision :e:11位，f:52位 quadruple
vector - 使用 epsilon 值确定游戏中的球是否不动？
我让球弹来弹去，每次它们碰撞时，它们的速度矢量都会因恢复系数而降低。现在我的球 CoR 是 0.80。因此，在多次弹跳之后，我的球已经“停止”滚动，因为它们的速度已经变得非常小了。在什么阶段检查速
python - 近似某个 epsilon 内的无限和
我在编码方面的经验很少，并且正在学习 Python 类(class)。我被要求在某个所需的 epsilon 内近似无穷总和，以便该系列中两个连续项之间的差值小于 epsilon。我搜索了一下，发现了
parsing - LR1 解析器和 Epsilon
我试图了解 LR1 解析器的工作原理，但我想到了一个奇怪的问题:如果语法包含 Epsilons 怎么办？例如:如果我有语法: S -> A A -> a A | B B -> a 很清楚如何开始: S
c# - 为浮点比较选择一个 Epsilon 值
我的团队正在使用财务软件，该软件在 C# float 加倍时公开货币值(value)。有时，我们需要比较这些值以查看它们是否等于零，或者是否低于特定限制。当我注意到此逻辑中的意外行为时，我很快了解到浮
javascript - 为什么该方程式的最大误差为4096 * Number.EPSILON？
在this question中，我编写了一个脚本，以查找将值存储为总和的一部分然后再次返回时可能出现的最大错误。我发现最大错误与Number.EPSILON有关： maximumError / Nu

首页

博学

6Ren·AI

商城

machine-learning - epsilon 超参数如何影响 tf.train.AdamOptimizer？