gpt4 book ai didi

tensorflow - 在分布式 tensorflow 中恢复检查点

转载 作者:行者123 更新时间:2023-12-05 07:48:32 36 4
gpt4 key购买 nike

使用类似于 https://github.com/tensorflow/models/tree/master/inception 的设置, chief worker 会自动定期在这个进程运行的节点上保存一个检查点文件。我在两个不同的节点上运行两个 ps。两个节点上也各有两个 worker 运行,4 个 worker 中有一个是 chief。

在没有任何修改的情况下重新开始训练时,Supervisor会自动尝试恢复上一个checkpoint文件,但最终会报错说在第二个节点(除了chief worker以外的节点)找不到ckpt,因为chief 从未在第二个节点上保存 ckpt。

W tensorflow/core/framework/op_kernel.cc:936] Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for /home/muneebs/tf_train/model.ckpt-275

如果我将 ckpt 目录复制到第二个节点,它会恢复正常。这是一个错误吗? saver 是否应该初始化为 sharded=True?如果是这样,这是唯一的方法吗?我们不能将 ckpt 作为单个文件以防节点数量稍后发生变化吗?

最佳答案

hdfs 这样的分布式文件系统会有所帮助。

U可以将模型(ckpt)保存到hdfs中的某个目录,从而避免恢复ckpt的问题。

另一种方法是在同一台机器上启动 task_index=0 的 psworker

关于tensorflow - 在分布式 tensorflow 中恢复检查点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38406978/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com