- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试解决由模型过度拟合引起的问题。不幸的是,我不知道如何增加 legacy/train.py
在训练期间输出的 model.cpk
的间隔。有没有办法减少每次保存 model.cpk
之间的时间并禁用其删除。我正在训练小型模型,可以承受增加的存储需求。
最佳答案
有关保存间隔和要保留的检查点数量,请查看此处: https://www.tensorflow.org/api_docs/python/tf/train/Saver
来自上面的链接
-> max_to_keep
-> keep_checkpoint_every_n_hours
Additionally, optional arguments to the Saver() constructor let you control the proliferation of checkpoint files on disk:
max_to_keep indicates the maximum number of recent checkpoint files to keep. As new files are created, older files are deleted. If None or 0, no checkpoints are deleted from the filesystem but only the last one is kept in the checkpoint file. Defaults to 5 (that is, the 5 most recent checkpoint files are kept.)
keep_checkpoint_every_n_hours: In addition to keeping the most recent max_to_keep checkpoint files, you might want to keep one checkpoint file for every N hours of training. This can be useful if you want to later analyze how a model progressed during a long training session. For example, passing keep_checkpoint_every_n_hours=2 ensures that you keep one checkpoint file for every 2 hours of training. The default value of 10,000 hours effectively disables the feature.
我相信如果你使用一个,你可以在训练配置中引用它。 checkout 同一旧目录中的 trainer.py 文件。在第 375 行附近,它引用了 keep_checkpoint_every_n_hours ->
# Save checkpoints regularly.
keep_checkpoint_every_n_hours = train_config.keep_checkpoint_every_n_hours
saver = tf.train.Saver(keep_checkpoint_every_n_hours=keep_checkpoint_every_n_hours)
它没有引用的是可能需要添加到该脚本的 max_to_keep 行。也就是说,最后,虽然没有所有信息很难确定,但我不禁认为你正在以错误的方式处理这件事。收集每个检查点并进行审查似乎不是处理过拟合的正确方法。运行 tensorboard 并在那里检查你的训练结果。此外,使用带有评估数据的模型进行一些评估也可以深入了解您的模型正在做什么。
祝你训练顺利!
关于python - 如何配置tensorflow legacy/train.py model.cpk输出间隔,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54212645/
TensorFlow 提供了 3 种不同的数据存储格式 tf.train.Feature .它们是: tf.train.BytesList tf.train.FloatList tf.train.In
在我的设置中,我运行了一个脚本 火车一个模型并开始生成检查点。另一个脚本监视新的检查点和 评估 他们。脚本并行运行,因此评估只是训练之后的一步。 支持这种情况的正确 Tracks 配置是什么? 最佳答
什么是合理的设置?我可以在同一次执行中多次调用 Task.init() 吗? 最佳答案 免责声明:我是 allegro.ai Trains 团队的一员 一种解决方案是从 trains.automati
我想开始我的方式 ClearML (以前称为火车)。 我在documentation上看到的我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。 我真的很想绕过这个限制并在我的
我正在尝试使用 weka 的 MultilayerPerceptron 执行以下操作: 使用一小部分训练实例来训练一部分历元输入, 在剩余的周期中使用整组实例进行训练。 但是,当我在代码中执行以下操作
这个问题与对象检测有关,基本上是检测任何“已知”对象。例如,假设我有以下对象。 表格 瓶子。 相机 汽车 我将从所有这些单独的对象中拍摄 4 张照片。左边一个,右边一个,上下两个。我本来以为用这4张照
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码,并且运行良好:。但我注意到,每个纪元都输入了相同的数据,我认为这可能会导致过度拟合,所以我想使用Mini Bat
(一)、tf.train.Saver() (1). tf.train.Saver() 是用来保存tensorflow训练模型的,默认保存全部参数 (2). 用来加载参数,注:只加载存储在data
我是 PyTorch 的新手,我想知道您是否可以向我解释 PyTorch 中的默认 model.train() 与此处的 train() 函数之间的一些关键区别。 另一个 train() 函数位于关于
我可以在maskrcnn的预训练模型的基础上训练吗?如果预训练模型的类别与我自己的数据集不同,预训练模型仍然有效吗?。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
我可以按照Maskrcnn预先训练的模式进行训练吗?如果预先训练的模型的类别与我自己的数据集的类别不同,那么预先训练的模型是否仍然有效?。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
我想知道这两个 tensorflow 对象在用于训练神经网络时有什么区别? 最佳答案 Supervisor 即将被弃用,鼓励新用户使用 tf.train.FooSession 类 (来自 commen
我已经看到文档 tf.train.ExponentialMovingAverage 实现了这个公式: shadow_variable = decay * shadow_variable + (1 -
我发现在 Tensorflow 中有不同的方法来保存/恢复模型和变量。这些方式包括: tf.saved_model.simple_save tf.train.Checkpoint tf.train.S
查看两个带有参数的函数签名 tf.train.shuffle_batch_join( tensors_list, batch_size, capacity, min_after_dequeue, se
我使用 Binary data训练 DNN。 但是 tf.train.shuffle_batch 和 tf.train.batch 让我很困惑。 这是我的代码,我将对其进行一些测试。 首先Using_
正如文档/教程中提到的,我们可以调用 Estimator.fit()开始训练工作。 该方法所需的参数为 inputs这是对训练文件的 s3/file 引用。示例: estimator.fit({'tr
这个问题在这里已经有了答案: Split train data to train and validation by using tensorflow_datasets.load (TF 2.1) (
我知道这两个类都处理线程。根据文档,tf.train.Coordinator 协调一组线程的终止,而 tf.train.QueueRunner 保存队列的入队操作列表,每个操作都在一个线程中运行。 但
最近我读了this TensorFlow 中未记录特征的指南,因为我需要传递可变长度序列作为输入。但是,我发现 tf.train.SequenceExample 的协议(protocol)相对困惑(特
我是一名优秀的程序员,十分优秀!