gpt4 book ai didi

tensorflow - Keras 和 Tensorflow 的 NVIDIA GPU 使用率低

转载 作者:行者123 更新时间:2023-12-03 16:55:51 25 4
gpt4 key购买 nike

我在 Windows 10 上运行带有 keras-gpu 和 tensorflow-gpu 的 CNN,带有 NVIDIA GeForce RTX 2080 Ti。我的电脑有一个 Intel Xeon e5-2683 v4 CPU (2.1 GHz)。我正在通过 Jupyter(最新的 Anaconda 发行版)运行我的代码。命令终端中的输出显示 GPU 正在被使用,但是我正在运行的脚本花费的时间比我预期的训练/测试数据要长,而且当我打开任务管理器时,GPU 利用率似乎非常低。这是一张图片:enter image description here

请注意,CPU 没有被利用,任务管理器上的任何其他内容都没有表明任何东西都被充分利用了。我没有以太网连接并且已连接到 Wifi(不认为这会产生任何影响,但我不确定 Jupyter,因为它通过网络浏览器运行)。我正在训练大量数据 (~128GB),这些数据都加载到 RAM (512GB) 中。我正在运行的模型是一个全卷积神经网络(基本上是一个 U-Net 架构),具有 566,290 个可训练参数。到目前为止我尝试过的事情:
1. 将批大小从 20 增加到 10,000(将 GPU 使用率从 ~3-4% 增加到 ~6-7%,按预期大大减少训练时间)。
2. 将 use_multiprocessing 设置为 True 并增加 model.fit 中的工作人员数量(无效)。

我按照这个网站上的安装步骤操作:https://www.pugetsystems.com/labs/hpc/The-Best-Way-to-Install-TensorFlow-with-GPU-Support-on-Windows-10-Without-Installing-CUDA-1187/#look-at-the-job-run-with-tensorboard

注意这个安装专门不安装 CuDNN 或 CUDA .过去我在使用 CUDA 运行 tensorflow-gpu 时遇到了麻烦(虽然我已经超过 2 年没有尝试过,所以使用最新版本可能更容易),这就是我使用这种安装方法的原因。

这很可能是 GPU 没有得到充分利用的原因(没有 CuDNN/CUDA)吗?是否与专用 GPU 内存使用成为瓶颈有关?或者可能与我使用的网络架构(参数数量等)有关?

如果您需要有关我的系统或我正在运行的代码/数据的更多信息以帮助诊断,请告诉我。提前致谢!

编辑:我在任务管理器中发现了一些有趣的东西。批量大小为 10,000 的 epoch 大约需要 200 秒。对于每个 epoch 的最后 ~5s,GPU 使用率增加到 ~15-17%(从每个 epoch 前 195s 的 ~6-7% 增加)。不确定这是否有帮助或表明 GPU 之外的某个地方存在瓶颈。

最佳答案

我首先会运行其中一个 short "tests"以确保 Tensorflow 正在使用 GPU。例如,我更喜欢 @Salvador Dali's在那个链接的问题中回答

import tensorflow as tf
with tf.device('/gpu:0'):
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
c = tf.matmul(a, b)

with tf.Session() as sess:
print (sess.run(c))

如果 Tensorflow 确实在使用您的 GPU,您应该会看到打印的矩阵乘法的结果。否则,相当长的堆栈跟踪说明找不到“ gpu:0”。

如果这一切正常,我建议使用 Nvidia 的 smi.exe公用事业。它在 Windows 和 Linux 上都可用,AFAIK 安装了 Nvidia 驱动程序。在 Windows 系统上,它位于
C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe

打开 Windows 命令提示符并导航到该目录。然后运行
nvidia-smi.exe -l 3

这将显示一个像这样的屏幕,每三秒更新一次。

enter image description here

在这里,我们可以看到有关 GPU 状态及其正在执行的操作的各种信息。在这种情况下特别感兴趣的是“Pwr:Usage/Cap”和“Volatile GPU-Util”列。如果您的模型确实在使用 GPU,那么一旦您开始训练模型,这些列应该会“立即”增加。

除非您有一个非常好的冷却解决方案,否则您很可能会看到风扇速度和温度的增加。在打印输出的底部,您还应该看到一个名称类似于“python”或“Jupitr”的进程正在运行。

如果这不能提供有关缓慢训练时间的答案,那么我推测问题在于模型和代码本身。我认为这里实际上就是这种情况。具体查看 Windows 任务管理器列表中的“专用 GPU 内存使用情况”基本上是最大的。

关于tensorflow - Keras 和 Tensorflow 的 NVIDIA GPU 使用率低,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58289983/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com