python - 如何配置tensorflow legacy/train.py model.cpk输出间隔-6ren

python - 如何配置tensorflow legacy/train.py model.cpk输出间隔

转载作者：太空狗更新时间：2023-10-29 21:57:43

24

4

我正在尝试解决由模型过度拟合引起的问题。不幸的是，我不知道如何增加 legacy/train.py 在训练期间输出的 model.cpk 的间隔。有没有办法减少每次保存 model.cpk 之间的时间并禁用其删除。我正在训练小型模型，可以承受增加的存储需求。

最佳答案

有关保存间隔和要保留的检查点数量，请查看此处: https://www.tensorflow.org/api_docs/python/tf/train/Saver

来自上面的链接
-> max_to_keep
-> keep_checkpoint_every_n_hours

Additionally, optional arguments to the Saver() constructor let you control the proliferation of checkpoint files on disk:

max_to_keep indicates the maximum number of recent checkpoint files to keep. As new files are created, older files are deleted. If None or 0, no checkpoints are deleted from the filesystem but only the last one is kept in the checkpoint file. Defaults to 5 (that is, the 5 most recent checkpoint files are kept.)

keep_checkpoint_every_n_hours: In addition to keeping the most recent max_to_keep checkpoint files, you might want to keep one checkpoint file for every N hours of training. This can be useful if you want to later analyze how a model progressed during a long training session. For example, passing keep_checkpoint_every_n_hours=2 ensures that you keep one checkpoint file for every 2 hours of training. The default value of 10,000 hours effectively disables the feature.

我相信如果你使用一个，你可以在训练配置中引用它。 checkout 同一旧目录中的 trainer.py 文件。在第 375 行附近，它引用了 keep_checkpoint_every_n_hours ->

# Save checkpoints regularly.
keep_checkpoint_every_n_hours = train_config.keep_checkpoint_every_n_hours
saver = tf.train.Saver(keep_checkpoint_every_n_hours=keep_checkpoint_every_n_hours)

它没有引用的是可能需要添加到该脚本的 max_to_keep 行。也就是说，最后，虽然没有所有信息很难确定，但我不禁认为你正在以错误的方式处理这件事。收集每个检查点并进行审查似乎不是处理过拟合的正确方法。运行 tensorboard 并在那里检查你的训练结果。此外，使用带有评估数据的模型进行一些评估也可以深入了解您的模型正在做什么。

祝你训练顺利!

关于python - 如何配置tensorflow legacy/train.py model.cpk输出间隔，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54212645/

24

4

0

文章推荐： c# - 在外部参数更改时通知更改

文章推荐： C# 可以隐藏继承的接口(interface)吗？

文章推荐： c# - Multi-Tenancy : Individual database per tenant

文章推荐： python - 流式 json 解析器

python - 什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 将数据存储在 tf.train.Feature 中？
TensorFlow 提供了 3 种不同的数据存储格式 tf.train.Feature .它们是: tf.train.BytesList tf.train.FloatList tf.train.In
trains - 使用 Trains 跟踪单独的训练/测试过程
在我的设置中，我运行了一个脚本火车一个模型并开始生成检查点。另一个脚本监视新的检查点和评估他们。脚本并行运行，因此评估只是训练之后的一步。支持这种情况的正确 Tracks 配置是什么？最佳答
trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用？
什么是合理的设置？我可以在同一次执行中多次调用 Task.init() 吗？最佳答案免责声明:我是 allegro.ai Trains 团队的一员一种解决方案是从 trains.automati
trains - ClearML(以前称为 Trains)可以在本地服务器上工作吗？
我想开始我的方式 ClearML (以前称为火车)。我在documentation上看到的我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。我真的很想绕过这个限制并在我的
machine-learning - WEKA的多层感知器: training then training again
我正在尝试使用 weka 的 MultilayerPerceptron 执行以下操作: 使用一小部分训练实例来训练一部分历元输入，在剩余的周期中使用整组实例进行训练。但是，当我在代码中执行以下操作
c++ - 对象检测 : Training Requried or No Training Required?
这个问题与对象检测有关，基本上是检测任何“已知”对象。例如，假设我有以下对象。表格瓶子。相机汽车我将从所有这些单独的对象中拍摄 4 张照片。左边一个，右边一个，上下两个。我本来以为用这4张照
"RuntimeError: You must train on the training inputs! " When I'm trying to use mini batch in training Guassian Process Regression Model(“RuntimeError：你必须在训练输入上训练！which is the most important part of the Process Regression Model.“)
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码，并且运行良好：。但我注意到，每个纪元都输入了相同的数据，我认为这可能会导致过度拟合，所以我想使用Mini Bat
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
(一)、tf.train.Saver() (1). tf.train.Saver() 是用来保存tensorflow训练模型的，默认保存全部参数 (2). 用来加载参数，注：只加载存储在data
python - Pytorch model.train() 和教程中编写的单独的 train() 函数
我是 PyTorch 的新手，我想知道您是否可以向我解释 PyTorch 中的默认 model.train() 与此处的 train() 函数之间的一些关键区别。另一个 train() 函数位于关于
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以在maskrcnn的预训练模型的基础上训练吗？如果预训练模型的类别与我自己的数据集不同，预训练模型仍然有效吗？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以按照Maskrcnn预先训练的模式进行训练吗？如果预先训练的模型的类别与我自己的数据集的类别不同，那么预先训练的模型是否仍然有效？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
tensorflow - tf.train.MonitoredTrainingSession 和 tf.train.Supervisor 有什么区别
我想知道这两个 tensorflow 对象在用于训练神经网络时有什么区别？最佳答案 Supervisor 即将被弃用，鼓励新用户使用 tf.train.FooSession 类 (来自 commen
python - tf.train.ExponentialMovingAverage 和 tf.train.MomentumOptimizer 有什么区别？
我已经看到文档 tf.train.ExponentialMovingAverage 实现了这个公式: shadow_variable = decay * shadow_variable + (1 -
python - tf.train.Checkpoint 和 tf.train.Saver 之间的区别
我发现在 Tensorflow 中有不同的方法来保存/恢复模型和变量。这些方式包括: tf.saved_model.simple_save tf.train.Checkpoint tf.train.S
python - tf.train.shuffle_batch_join 和 tf.train.shuffle_batch 之间的区别
查看两个带有参数的函数签名 tf.train.shuffle_batch_join( tensors_list, batch_size, capacity, min_after_dequeue, se
python - tf.train.shuffle_batch 和 `tf.train.batch 发生了什么？
我使用 Binary data训练 DNN。但是 tf.train.shuffle_batch 和 tf.train.batch 让我很困惑。这是我的代码，我将对其进行一些测试。首先Using_
machine-learning - SageMaker Estimator.fit() 未将 'train' 输入传递给 Training 实例
正如文档/教程中提到的，我们可以调用 Estimator.fit()开始训练工作。该方法所需的参数为 inputs这是对训练文件的 s3/file 引用。示例: estimator.fit({'tr
python - key 错误 : "Invalid split train[:80%]. Available splits are: [' train']"
这个问题在这里已经有了答案: Split train data to train and validation by using tensorflow_datasets.load (TF 2.1) (
multithreading - tf.train.Coordinator 类和 tf.train.QueueRunner 类在 tensorflow 中做什么？
我知道这两个类都处理线程。根据文档，tf.train.Coordinator 协调一组线程的终止，而 tf.train.QueueRunner 保存队列的入队操作列表，每个操作都在一个线程中运行。但
tensorflow - 对于可变长度特征，使用 tf.train.SequenceExample 相对于 tf.train.Example 有何优点？
最近我读了this TensorFlow 中未记录特征的指南，因为我需要传递可变长度序列作为输入。但是，我发现 tf.train.SequenceExample 的协议(protocol)相对困惑(特

首页

博学

6Ren·AI

商城

python - 如何配置tensorflow legacy/train.py model.cpk输出间隔