gpt4 book ai didi

ubuntu - 我可以从培训文件夹中删除 events.out.tfevents.XXXXXXXXXX.computer_name 文件吗

转载 作者:太空宇宙 更新时间:2023-11-03 16:50:01 33 4
gpt4 key购买 nike

我正在训练 faster_rcnn_inception 模块以在自定义数据集上进行对象检测。在训练目录中,我们找到名为 eval_0 的文件夹和 tensorflow 生成的 events.out.tfevents.xxxxxx 文件。

训练目录结构如下

+training_dir
+eval_0
-events.out.tfevents.1542309785.instance-1 1.2GB
-events.out.tfevents.1542367255.instance-1 5.3GB
-events.out.tfevents.1542369886.instance-1 3.6GB
-events.out.tfevents.1542624154.instance-1 31MB
-events.out.tfevents.1543060258.instance-1 19MB
-events.out.tfevents.1543066775.instance-2 1.6GB
-events.out.tfevents.1542308099.instance-1 17MB
-events.out.tfevents.1542308928.instance-1 17MB
-events.out.tfevents.1542366369.instance-1 17MB
-events.out.tfevents.1542369000.instance-1 17MB
-events.out.tfevents.1542623262.instance-1 17MB
-events.out.tfevents.1543064936.instance-2 17MB
-events.out.tfevents.1543065796.instance-2 17MB
-events.out.tfevents.1543065880.instance-2 17MB
-model.ckpt-96004.data-00000-of-00001
-model.ckpt-96004.data-00000-of-00001
-model.ckpt-96004.index
-model.ckpt-96004.meta
-model.ckpt-96108.data-00000-of-00001
-model.ckpt-96108.index
-model.ckpt-96108.meta

据我了解,eval_0 文件夹中的 tfevents 文件是evaluation 的总结文件,training_dir 中的 tfevents 文件> 是训练的总结文件。

我多次中断训练过程并从最近的检查点继续。我还了解重新启动训练过程会生成新的 tfevents 文件。

我的问题如下:

  • 为什么训练 tfevents_files 具有相同的大小,但如果eval_0/tfevents_files 大小变化 ?

  • 为什么中断训练会在训练中生成新的 tfevents_file文件夹,但在 eval_0?

  • 的情况下没有观察到同样的情况
  • 我可以删除 eval_0 中除最新一个以外的所有 tfevents 文件吗?可以对训练或进化历史有影响吗?

最佳答案

tfevents 文件不是训练所必需的,可以安全地删除。

在 Tensorflow 中,tfevents 由 FileWriters 创建,通常用于存储摘要输出。以下是如何使用 tf.summaries 的一些常见示例:

  • 在训练开始前存储 tensorflow 图的描述
  • 为每个训练步骤写下损失函数的值
  • 每个时期存储一次层的激活或权重直方图
  • 在每次验证时存储一次网络输出图像的示例
  • 存储整个验证集的平均精度(或任何其他指标)

此信息对于培训不是必需的,因此可以删除。然而,它可能会在调试或研究模型行为时派上用场。 TensorBoard 是读取和可视化存储在 tfevent 文件中的数据的最常用工具。任何人都可以使用 protobuf 协议(protocol)及其针对 Python、C++ 和其他语言的实现手动读取和解释 TFRecord 文件。

tfevents 以 TFRecord 格式编写。 TFRecord是一种用于存储二进制记录序列的简单格式。如果文件已存在,Tensorflow 总是将新事件/摘要附加到文件末尾。这解释了文件增长。

由于 tensorflow/models/reserach/object_detection 提供的优化例程的实现细节,训练和评估事件文件具有不同的行为。即,评估事件文件是直接使用 FileWriter 创建的,只要存在,它将重用 log_dir 中最新的现有事件文件。实现还具有大量定期收集的摘要,这增加了训练期间的事件文件。

另一方面,对于训练例程,开发人员在 TPU 上完成训练时明确指定一个空的摘要列表。 .这意味着事件文件只创建一次,以后永远不会使用。当在非 TPU 硬件上执行训练或为训练启用summarize_gradients选项时,此行为可能会有所不同。

关于ubuntu - 我可以从培训文件夹中删除 events.out.tfevents.XXXXXXXXXX.computer_name 文件吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53517857/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com