gpt4 book ai didi

python - Tensorflow-GPU 在训练期间保存检查点时卡住了 - 也没有使用整个 GPU,不知道为什么

转载 作者:太空宇宙 更新时间:2023-11-03 20:04:31 25 4
gpt4 key购买 nike

GPU:Nvidia GTX 2070

Python 版本:3.5

tensorflow :1.13.1

CUDA:10

cuDNN:7.4

模型:Faster-RCNN-Inception-V2

我正在使用旧方法来训练我的模型(trian.py)以及当我这样运行它时

python train.py --logtostderr --train_dir=training/--pipeline_config_path=training/faster_rcnn_inception_v2_pets.config

训练运行一段随机时间(通常在第 150 步左右被卡住,但有时当我尝试时它通常会达到 300-700),然后在尝试保存检查点时卡住。我到达了它只是说的地步

信息:tensorflow:全局步骤 864:损失 = 0.4430(0.996 秒/步)

信息:tensorflow:将检查点保存到路径training/model.ckpt

信息:tensorflow:将检查点保存到路径training/model.ckpt

并且不会超过该点。一旦达到这一点,无论我尝试哪种方法,我都无法杀死该程序,并且如果我希望该进程停止,则被迫简单地关闭终端窗口。

此外,根据我所读到的内容,理论上该程序在训练时应该使用接近 100% 的 GPU,但最终只使用了大约 10%。我不确定这两件事是否相关,但我觉得这可能值得一提,特别是考虑到如果我确实设法让它工作,我希望尽快训练它。

我过去见过其他人发布过类似问题,但似乎没有人有任何答案。如果有人有任何想法请告诉我!谢谢。

最佳答案

遇到同样的问题,直到我将 Nvidia 驱动程序从版本 441.28 升级到最新版本。此后,训练不会停止或卡住。

关于python - Tensorflow-GPU 在训练期间保存检查点时卡住了 - 也没有使用整个 GPU,不知道为什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59042621/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com