gpt4 book ai didi

GPU 在执行 Tensorflow 或 Theano 代码期间丢失

转载 作者:行者123 更新时间:2023-12-04 08:47:32 25 4
gpt4 key购买 nike

当训练两个不同的神经网络之一时,一个使用 Tensorflow,另一个使用 Theano,有时在随机时间后(可能是几小时或几分钟,主要是几小时),执行卡住,我通过运行“nvidia-smi”:

“无法确定 GPU 0000:02:00.0 的设备句柄:GPU 丢失。重新启动系统以恢复此 GPU”

我尝试监控 13 小时执行的 GPU 性能,一切似乎都很稳定:
enter image description here

我正在与:

  • Ubuntu 14.04.5 LTS
  • GPU 是 Nvidia Titan Xp(此行为在同一台机器上的另一个 GPU 上重复)
  • CUDA 8.0
  • CuDNN 5.1
  • Tensorflow 1.3
  • Theano 0.8.2

  • 我不确定如何解决这个问题,任何人都可以提出可能导致此问题以及如何诊断/解决此问题的想法吗?

    最佳答案

    我不久前发布了这个问题,但经过一些调查,花了几周时间,我们设法找到了问题(和解决方案)。
    我现在不记得所有的细节,但我发布了我们的主要结论,以防有人会觉得它有用。

    底线是 - 我们拥有的硬件不够强大,无法支持高负载 GPU-CPU 通信。我们在具有 1 个 CPU 和 4 个 GPU 设备的机架式服务器上观察到这些问题,只是 PCI 总线过载。通过向机架服务器添加另一个 CPU 解决了该问题。

    关于GPU 在执行 Tensorflow 或 Theano 代码期间丢失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45891934/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com