python - MonitoredTrainingSession 每次运行写入多个元图事件-6ren

python - MonitoredTrainingSession 每次运行写入多个元图事件

转载作者：太空狗更新时间：2023-10-29 21:08:07

25

4

当使用 tf.train.MonitoredTrainingSession 编写检查点文件时，它会以某种方式写入多个元图。我做错了什么？

我将其简化为以下代码:

import tensorflow as tf
global_step = tf.Variable(0, dtype=tf.int32, trainable=False, name="global_step")
train = tf.assign(global_step, global_step + 1)
saver = tf.train.Saver()
hooks = [(tf.train.CheckpointSaverHook(checkpoint_dir=output_path + "test1/ckpt/",
                                          save_steps = 10,
                                          saver = saver))]

with tf.train.MonitoredTrainingSession(master = '',
                                       is_chief = True,
                                       checkpoint_dir = None,
                                       hooks = hooks,
                                       save_checkpoint_secs = None,
                                       save_summaries_steps = None,
                                       save_summaries_secs = None) as mon_sess:
    for i in range(30):
        if mon_sess.should_stop():
            break
        try:
            gs, _ = mon_sess.run([global_step, train])
            print(gs)
        except (tf.errors.OutOfRangeError,tf.errors.CancelledError) as e:
            break
        finally:
            pass

运行它会产生重复的元图，正如 tensorboard 警告所证明的那样:

$ tensorboard --logdir ../train/test1/ --port=6006

WARNING:tensorflow:Found more than one graph event per run, or there was a metagraph containing a graph_def, as well as one or more graph events. Overwriting the graph with the newest event. Starting TensorBoard 54 at local:6006 (Press CTRL+C to quit)

这是在 tensorflow 1.2.0 中(我无法升级)。

在没有监控 session 的情况下运行相同的东西会给出正确的检查点输出:

global_step = tf.Variable(0, dtype=tf.int32, trainable=False, name="global_step")
train = tf.assign(global_step, global_step + 1)
saver = tf.train.Saver()
init_op = tf.global_variables_initializer()
with tf.Session() as sess:
    sess.run(init_op)
    for i in range(30):
        gs, _ = sess.run([global_step, train])
        print(gs)
        if i%10==0:
            saver.save(sess, output_path+'/test2/my-model', global_step=gs)
            print("Saved ckpt")

没有张量板错误的结果:

$ tensorboard --logdir ../traitest2/ --port=6006

Starting TensorBoard 54 at local:6006 (Press CTRL+C to quit)

我想解决这个问题，因为我怀疑我遗漏了一些基本的东西，而且这个错误可能与我在分布式模式下遇到的其他问题有某种联系。每当我想更新数据时，我都必须重新启动 tensorboard。此外，TensorBoard 在发出许多此类警告时似乎随着时间的推移变得非常缓慢。

有一个相关的问题:tensorflow Found more than one graph event per run在这种情况下，错误是由于多次运行(使用不同的参数)写入同一输出目录。这里的案例是关于单次运行到一个干净的输出目录。

在分布式模式下运行 MonitoredTrainingSession 版本会出现相同的错误。

10 月 12 日更新

@Nikhil Kothari 建议使用 tf.train.MonitoredSession 而不是更大的 tf.train.MonitoredTrainSession 包装器，如下所示:

import tensorflow as tf
global_step = tf.Variable(0, dtype=tf.int32, trainable=False, name="global_step")
train = tf.assign(global_step, global_step + 1)
saver = tf.train.Saver()
hooks[(tf.train.CheckpointSaverHook(checkpoint_dir=output_path + "test3/ckpt/",
                                            save_steps=10,
                                            saver=saver))]

chiefsession = tf.train.ChiefSessionCreator(scaffold=None,
                                            master='',
                                            config=None,
                                            checkpoint_dir=None,
                                            checkpoint_filename_with_path=None)
with tf.train.MonitoredSession(session_creator=chiefsession,
                hooks=hooks,
                stop_grace_period_secs=120) as mon_sess:
    for i in range(30):
        if mon_sess.should_stop():
            break
        try:
            gs, _ = mon_sess.run([global_step, train])
            print(gs)
        except (tf.errors.OutOfRangeError,tf.errors.CancelledError) as e:
            break
        finally:
            pass

不幸的是，这仍然会给出相同的张量板错误:

$ tensorboard --logdir ../train/test3/ --port=6006

WARNING:tensorflow:Found more than one graph event per run, or there was a metagraph containing a graph_def, as well as one or more graph events. Overwriting the graph with the newest event. Starting TensorBoard 54 at local:6006 (Press CTRL+C to quit)

顺便说一句，每个代码块都是独立的，将其复制=粘贴到 Jupyter 笔记本中，您将重现问题。

最佳答案

我想知道这是否是因为您集群中的每个节点都在运行相同的代码，将自己声明为 chief，并保存图表和检查点。

如果 is_chief = True 在 Stack Overflow 上的帖子中只是说明性的，或者这正是您正在使用的，我不知道……所以在这里猜测一下。

我个人使用 MonitoredSession 而不是 MonitoredTrainingSession 并根据代码是否在 master/chief 上运行创建了一个 Hook 列表。示例:https://github.com/TensorLab/tensorfx/blob/master/src/training/_trainer.py#L94

关于python - MonitoredTrainingSession 每次运行写入多个元图事件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46636558/

25

4

0

文章推荐： c# - 显示多个数组

文章推荐： c++ - boost 测试

文章推荐： c# - 任务完成后，连接正在关闭

文章推荐： c++ - 配置文件解析器

wpf - 如何翻译 CodeBehind WPF 事件；事件、处理程序、事件 setter 到 MVVM 模式？
我正在尝试将 WPF CodeBehid 事件(如 Event、Handler、EventSetter)转换为 MVVM 模式。我不允许使用 System.Windows.Controls，因为我使用
javascript - 向对象添加 Backbone 事件，修改时未注册 "on"事件
我可能误解了 Backbone 中的事件系统，但是当我尝试以下代码时什么也没有发生。当我向 Backbone.Events 扩展对象添加新属性时，它不应该触发某种更改、更新或重置事件吗？就像模型一样吗
javascript - Vue 事件 - 无法从子组件收听 $emit 事件
我遇到了一个简单的问题，就是无法弄清楚为什么它不起作用。我有一个子组件“app-buttons”，其中我有一个输入字段，我想听，所以我可以根据输入值过滤列表。如果我将输入放在我有列表的根组件中，一切
c# - Elapsed 事件 v Tick 事件？
System.Timers.Timer 的 Elapsed 事件实际上与 System.Windows.Forms.Timer 的 Tick 事件相同吗？在特定情况下使用其中一种比使用另一种有优势吗
javascript - evt = (evt) 的含义？事件 : window. 事件
嗨，这个 javascript 代码段是什么意思。(evt) 部分是如此令人困惑.. evt 不是 bool 值。这个怎么运作？ function checkIt(evt) { evt
jquery - 完整日历 + 事件 + 事件 Drop + Ajax - 不发送日期值
我正在使用jquery full calendar我试图在事件被删除时保存它。 $('calendar').fullCalendar ({
jquery - 为什么我可以关闭 mousedown 事件，但不能关闭其链接的 mouseup 事件？
我有两个链接的鼠标事件: $('body > form').on("mousedown", function(e){ //Do stuff }).on("mouseup", function(
javascript - 函数适用于 'keypress' 事件，但不适用于我触发的相同 'keypress' 事件
这是我的代码: $( '#Example' ).on( "keypress", function( keyEvent ) { if ( keyEvent.which != 44 ) {
c# - C# 中有没有一种方法可以触发 onclick() 事件，并且仍然能够在按住鼠标单击的同时检测到 onDrag() 事件
我尝试了 dragOver 事件处理程序，但它没有正常工作。我正在研究钢琴，我希望能够弹奏音符，即使那个键上没有发生鼠标按下。是否有事件处理程序？下面是我正在制作的钢琴的图片。最佳答案您应该
javascript - 如何在 onClick 事件(ReactJS)之后停止 onMouseOut 事件？
当悬停在相邻文本上时，我需要使隐藏按钮可见。这是通过 onMouseEnter 和 onMouseLeave 事件完成的。但是当点击另外的文本时，我需要使按钮完全可见并停止 onMouseLeave
javascript - 仅在 mouseup 事件 Jquery 中启用 Click 事件
我有ul标签内 div标签。我申请了mouseup事件 div标记和 click事件 ul标签。问题每当我点击 ul标签，然后都是 mouseup和 click事件被触发。我想要的是当我点击 u
javascript - e = 事件 ||窗口.事件;声明在 Firefox 中无法正常工作
我是 Javascript 和 jQuery 的新手，所以我有一个非常愚蠢的疑问，请耐心等待 $(document).click(function () { alert("!"); v
javascript - 如何使 'keydown' 事件 block 成为 'keyup' 事件？
我有一个邮政编码解析器，我正在使用 keyup 事件处理程序来跟踪输入长度何时达到 5，然后查询服务器以解析邮政编码。但是我想防止脚本被不必要地调用，所以我想知道是否有一种方法可以跟踪 keydown
php - 使用 facebook 事件 API 在创建时将封面照片上传到 facebook 事件
使用事件 API，我有以下代码来发布带有事件照片的事件 $facebook = new Facebook(array( "appId" => "XXX", "se
c# - 由于加载时未触发 NewDocument 事件，如何处理 Word DocumentChange 事件
首次加载 Microsoft Word 时，既不会触发 NewDocument 事件也不会触发 DocumentOpen 事件。当 Word 实例已打开并打开新文档或现有文档时，这些事件会正常触发。
Javascript:Keydown 事件: "Up"箭头键阻止进一步的箭头键 Keydown 事件？ (回答:键盘重影)
我发现了很多相关问题(这里和其他地方)，但还没有具体找到这个问题。我正在尝试监听箭头键 (37-40) 的按键事件，但是当以特定顺序使用箭头键时，后续箭头不会生成“按键”事件。例子: http:/
javascript - keydown 事件(TAB 键)修改元素值时未触发 Change 事件
给定的 HTML: 和 JavaScript 的: var $test = $('#test'); $test.on('keydown', function(event) { if (eve
Node.js – 事件 js 72 抛出未处理的 'error' 事件
我是 Node.js 的新手，希望使用流运行程序。对于其他程序，我必须同时启动一个服务器(mongodb、redis 等)，但我不知道我是否应该用这个运行一个服务器。请让我知道我哪里出了问题以及如何纠
cocoa - Swift NSViewController 响应 mouseDown 事件，但不响应 keyDown 事件
我正在尝试使用 Swift 和 Cocoa 创建一个适用于 OS X 的应用程序。我希望应用程序能够响应关键事件，而不将焦点放在文本字段上/文本字段中。我在 Xcode 中创建了一个带有 Storyb
javascript - GTM、事件 - 点击、目标 - 链接、GA 事件 - 空
我有以下代码: (function(w,d,s,l,i){ w[l]=w[l]||[];w[l].push({

首页

博学

6Ren·AI

商城

python - MonitoredTrainingSession 每次运行写入多个元图事件