gpt4 book ai didi

ubuntu - 在多个 GPU 上使用 TensorFlow 进行训练时计算机崩溃

转载 作者:行者123 更新时间:2023-12-04 18:57:35 25 4
gpt4 key购买 nike

在使用多个 GPU 使用 tensorflow 进行训练时,我的服务器崩溃并自动重启。

我的任务是这样的:

CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training]
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training]

当两个任务都在运行时,服务器会崩溃并自动重新启动。我尝试使用不同的服务器,但所有服务器的行为都相同。

我的硬件配置:

戴尔 T7610 服务器
2* E5-2609 CPU
1* Nvidia GTX 1080(Inno 3D 基础版)
1* Nvidia GTX 1080Ti(技嘉基础版)
64G内存

我的软件配置:

Ubuntu 14.04 LTS(Linux 3.13.0-87-generic)
Nvidia 驱动程序版本 378.13(来自 ppa:graphics-drivers 的 nvidia-378)
CUDA 8.0 (CuDNN 5.1.5)
Python 2.7.13 |Anaconda 4.3.0(64 位)
tensorflow-gpu-1.0.1(来自 pip 安装)

PSU 有足够的显卡容量。而且从memtest的结果来看,不是内存相关的问题。没有任何 syslogkern.log有助于定位问题的日志。

我知道 a similar question .但是,降级 Linux 内核的解决方法是 Not Acceptable ,因为我与实验室人员共享机器。

最佳答案

现在我已经解决了这个问题。我决定回答我自己的问题。

一直是电源问题。当 GPU 消耗的电量超过 PSU 所能提供的电量时,计算机将重新启动。虽然 PSU 有足够的容量,但 18A PCIe 电缆的功率限制为 217W。

我的解决方法是使用两条 PCIe 电源线通过双 6 针到 8 针连接器为 GTX1080 供电。

关于ubuntu - 在多个 GPU 上使用 TensorFlow 进行训练时计算机崩溃,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43007147/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com