gpt4 book ai didi

keras - 为什么 Keras 为单个 .fit 运行编写多个张量板日志?

转载 作者:行者123 更新时间:2023-12-02 03:00:44 25 4
gpt4 key购买 nike

我在 Google Cloud 上使用带有 tensorflow 后端的 Keras 运行一个卷积网络模型,使用 tensorboard 回调来保存训练历史记录的 tfevents 日志。当我监控学习曲线时,我注意到在训练进行到一半时(学习曲线处于平稳状态),一个新的 tfevents 日志被保存到磁盘中。 TensorBoard 的学习曲线图显示训练被重置为 epoch #1,val_loss 也重置为 scratch。

这真的很奇怪。有谁知道这里发生了什么? Keras 在什么情况下会自动重启训练并保存新的 tfevents 日志?

最佳答案

原来这个问题只发生在我在谷歌云上运行我的代码时,而不是在我的本地机器上。谷歌工程师确认的实际原因,是 Google 的云维护,而不是 Keras! Google Compute Engine (GCE) 实例偶尔会在没有任何警告或事先通知的情况下关闭以进行维护(在此回答时也未记录)。维护将导致训练实例从头开始重新启动,因此生成新的 tfevents 日志并重置所有以前的进度。

对此的解决方案是经常保存检查点,加载以前的模型(如果存在),并在重启时恢复训练。请注意,在使用 GCE 时,必须使用 Keras 中的自定义 Lambda 回调函数将检查点保存到 Google Cloud Storage (GCS),否则您的检查点将随着关闭而消失。

关于keras - 为什么 Keras 为单个 .fit 运行编写多个张量板日志?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46331536/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com