- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的问题很简单,但我在网上找不到明确的答案(到目前为止)。
在定义的训练周期数之后,我保存了使用 adam 优化器训练的 keras 模型的权重:
callback = tf.keras.callbacks.ModelCheckpoint(filepath=path, save_weights_only=True)
model.fit(X,y,callbacks=[callback])
当我关闭 jupyter 后恢复训练时,我可以简单地使用:
model.load_weights(path)
继续训练。
由于 Adam 依赖于纪元数(例如学习率衰减的情况),我想知道在与以前相同的条件下恢复训练的最简单方法。
根据 ibarrond 的回答,我编写了一个小的自定义回调。
optim = tf.keras.optimizers.Adam()
model.compile(optimizer=optim, loss='categorical_crossentropy',metrics=['accuracy'])
weight_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_path, save_weights_only=True, verbose=1, save_best_only=False)
class optim_callback(tf.keras.callbacks.Callback):
'''Custom callback to save optimiser state'''
def on_epoch_end(self,epoch,logs=None):
optim_state = tf.keras.optimizers.Adam.get_config(optim)
with open(optim_state_pkl,'wb') as f_out:
pickle.dump(optim_state,f_out)
model.fit(X,y,callbacks=[weight_callback,optim_callback()])
当我恢复训练时:
model.load_weights(checkpoint_path)
with open(optim_state_pkl,'rb') as f_out:
optim_state = pickle.load(f_out)
tf.keras.optimizers.Adam.from_config(optim_state)
我只是想检查一下这是否正确。再次非常感谢!!
附录:进一步阅读默认值 Keras implementation亚当和 original Adam paper ,我相信默认的 Adam 不依赖于纪元数,而只依赖于迭代数。因此,这是不必要的。但是,对于任何希望跟踪其他优化器的人来说,该代码可能仍然有用。
最佳答案
为了完美捕获优化器的状态,您应该使用函数 get_config()
存储其配置。 。此函数返回一个字典(包含选项),可以使用pickle
对其进行序列化并存储在文件中。 .
要重新启动该过程,只需 d = pickle.load('my_saved_tfconf.txt')
检索具有配置的字典,然后使用函数 from_config(d )
Keras Adam Optimizer.
关于python - 在 Keras 中使用 Adam 优化器恢复训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60076741/
ADAM 的并发连接数是否有限制。是可配置的吗? -- 可以建立多少来自同一用户的并发连接?-- 可以建立多少个来自不同用户的并发连接? 任何帮助/指点将不胜感激。 谢谢。 最佳答案 理论限制是 65
我最初在 Keras 中开发了一个分类器,我的优化器很容易在其中应用衰减。 adam = keras.optimizers.Adam(decay=0.001) 最近我试图将整个代码更改为纯 Tenso
我已经设置了一个 ADAM 实例并添加了一些测试用户。在 c# 中,我可以使用 Windows 帐户绑定(bind)到 ADAM,但我无法使用其中一个 ADAM 用户进行绑定(bind)。 (我可以在
我一直在试用 TensroFlow v2 beta 并且我正在试用 tf.keras 模型。 当我编译模型并将优化器选择为字符串 'adam' 时。可以正确训练模型: model.compile(op
由于Adam Optimizer保留了一对移动平均值,例如梯度的均值/方差,因此我想知道它应该如何正确处理权重衰减。我已经看到了两种实现方法。 仅基于客观损失从梯度中更新均值/方差,在每个小批量中明确
我正在尝试估计收缩压。我将 PPG 特征 (27) 放入 ANN 中。我得到的结果如下。这是一个好的学习率吗?如果不是,是高还是低?这是我的结果。 我将学习率设置为 0.000001。我认为还是太高了
我正在尝试使用 .Net 中的 DirectorySearcher 来查询残疾用户。 我正在使用一个与此处发布的非常相似的相当快的列表功能。 Enumerating Large Groups With
根据Adam的伪代码: 我写了一些代码: from matplotlib import pyplot as plt import numpy as np # np.random.seed(42) nu
根据Adam的伪代码: 我写了一些代码: from matplotlib import pyplot as plt import numpy as np # np.random.seed(42) nu
我正在使用 Tensorflow Adam 方法来优化随机函数,该函数(几乎)与神经网络无关,而是与概率推理有关。 Adam 在寻找成本函数的全局最优值方面工作得很好,但是我的变量是有界的,而 Ada
我正在学习如何使用优化器在 Tensor Flow 中训练模型。因此,我构建了一个线性模型,创建了一个玩具数据集,并使用 AdamOptimizer 和 GradientDescentOptimize
好吧,我一直在阅读一些有关 tensorflow 中 AdamOptimizer 的帖子。我认为至少在像我这样的神经网络初学者中存在一些困惑。 如果我理解正确的话,tf.train.AdamOptim
我正在学习 Python 深度学习类(class),但我陷入了示例的以下几行内容: regressor.compile(optimizer = 'adam', loss = 'mean_squared
我正在训练我的方法。我得到的结果如下。这是一个好的学习率吗?如果不是,是高还是低?这是我的结果 lr_policy: "step" gamma: 0.1 stepsize: 10000 power:
我正在编写一个使用 Active Directory 来验证用户的网站。我无权访问我可以以任何方式编辑的 Active Directory 实例。 我听说有些人正在使用 Active Director
我正在开发一个在 div 中带有 iframe 的网页。即使在 CSS 中将宽度设置为 100% 后,我也无法使 iframe 拉伸(stretch)到其父 div 的整个宽度。 我做错了什么。请看看
我在编写一些 Java 代码时遇到问题,这些代码将在 ADAM 中创建一个容器/文件夹,其中容器名称和专有名称包含正斜杠。 例如 cn=测试/测试 dn=CN=测试/测试,CN=TestStore,D
是否每个人都以编程方式创建过自定义属性? (目前我只是使用了 Scheme 管理单元) 理想情况下,我希望(管理员)用户能够通过 Web 界面管理 ADAM 实例。我正在编写 Web 服务以能够执行诸
我正在尝试运行 AdamOptimizer 进行一步训练,但未成功。 optimizer = tf.train.AdamOptimizer(learning_rate) init = tf.globa
考虑以下信息: 初始学习率:0.0002 衰减系数:0.7 ephocs:70 我的问题是选择衰减步骤,使衰减每两个时期发生一次。我该如何在 Keras 中解决这个问题? 这是指数衰减学习率的公式:
我是一名优秀的程序员,十分优秀!