GPU 上的 Tensorflow 比 CPU 上的慢-6ren

GPU 上的 Tensorflow 比 CPU 上的慢

转载作者：行者123 更新时间：2023-12-03 20:27:58

使用带有 Tensorflow 后端的 Keras，我试图训练一个 LSTM 网络，在 GPU 上运行它比在 CPU 上运行它需要更长的时间。

我正在使用 fit_generator 函数训练 LSTM 网络。每个 epoch 需要 CPU 约 250 秒，而每个 epoch 需要 GPU 约 900 秒。我的 GPU 环境中的包包括

keras-applications        1.0.8                      py_0    anaconda
keras-base                2.2.4                    py36_0    anaconda
keras-gpu                 2.2.4                         0    anaconda
keras-preprocessing       1.1.0                      py_1    anaconda
...
tensorflow                1.13.1          gpu_py36h3991807_0    anaconda
tensorflow-base           1.13.1          gpu_py36h8d69cac_0    anaconda
tensorflow-estimator      1.13.0                     py_0    anaconda
tensorflow-gpu            1.13.1                   pypi_0    pypi

我的 Cuda 编译工具是 9.1.85 版本，我的 CUDA 和驱动程序版本是

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 2080    On   | 00000000:0A:00.0 Off |                  N/A |
|  0%   39C    P8     5W / 225W |   7740MiB /  7952MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce RTX 2080    On   | 00000000:42:00.0 Off |                  N/A |
|  0%   33C    P8    19W / 225W |    142MiB /  7951MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     49251      C   .../whsu014/.conda/envs/whsuphd/bin/python  7729MiB |
|    1      1354      G   /usr/lib/xorg/Xorg                            16MiB |
|    1     49251      C   .../whsu014/.conda/envs/whsuphd/bin/python   113MiB |
+-----------------------------------------------------------------------------+

当我插入这行代码时

tf.Session(config = tf.configProto(log_device_placement = True)):

我在终端中看到以下内容

...
ining_1/Adam/Const_10: (Const)/job:localhost/replica:0/task:0/device:GPU:0
training_1/Adam/Const_11: (Const): /job:localhost/replica:0/task:0/device:GPU:0
2019-06-25 11:27:31.720653: I tensorflow/core/common_runtime/placer.cc:1059] training_1/Adam/Const_11: (Const)/job:localhost/replica:0/task:0/device:GPU:0
training_1/Adam/add_15/y: (Const): /job:localhost/replica:0/task:0/device:GPU:0
2019-06-25 11:27:31.720666: I tensorflow/core/common_runtime/placer.cc:1059] training_1/Adam/add_15/y: (Const)/job:localhost/replica:0/task:0/device:GPU:0
...

所以看起来 Tensorflow 正在使用 GPU。

当我分析代码时，
在 GPU 上这是前 10 行

10852017 function calls (10524203 primitive calls) in 184.768 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
    16200  173.827    0.011  173.827    0.011 {built-in method _pywrap_tensorflow_internal.TF_SessionRunCallable}
        6    0.926    0.154    0.926    0.154 {built-in method _pywrap_tensorflow_internal.TF_SessionMakeCallable}
       62    0.813    0.013    0.813    0.013 {built-in method _pywrap_tensorflow_internal.TF_SessionRun_wrapper}
   156954    0.414    0.000    0.415    0.000 {built-in method numpy.array}
    16200    0.379    0.000    1.042    0.000 training.py:643(_standardize_user_data)
    24300    0.338    0.000    0.338    0.000 {method 'partition' of 'numpy.ndarray' objects}
       68    0.301    0.004    0.301    0.004 {built-in method _pywrap_tensorflow_internal.ExtendSession}
    32458    0.223    0.000    2.122    0.000 tensorflow_backend.py:156(get_session)
     3206    0.212    0.000    0.238    0.000 tf_stack.py:31(extract_stack)
    76024    0.210    0.000    0.702    0.000 ops.py:5246(get_controller)
...

在 CPU 上这是前 10 行

22123473 function calls (21647174 primitive calls) in 60.173 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
    16269   42.491    0.003   42.491    0.003 {built-in method tensorflow.python._pywrap_tensorflow_internal.TF_Run}
    16269    0.568    0.000   48.964    0.003 session.py:1042(_run)
       56    0.532    0.010    0.532    0.010 {built-in method time.sleep}
   153641    0.458    0.000    0.460    0.000 {built-in method numpy.core.multiarray.array}
183148/125354    0.447    0.000    1.316    0.000 python_message.py:469(init)
  1226659    0.362    0.000    0.364    0.000 {built-in method builtins.getattr}
2302110/2301986    0.339    0.000    0.358    0.000 {built-in method builtins.isinstance}
        8    0.285    0.036    0.285    0.036 {built-in method tensorflow.python._pywrap_tensorflow_internal.TF_ExtendGraph}
    12150    0.267    0.000    0.271    0.000 callbacks.py:211(on_batch_end)
147026/49078    0.264    0.000    1.429    0.000 python_message.py:1008(ByteSize)
...

这是我的代码。

def train_generator(x_list, y_list):
    # 0.1 validatioin split
    train_length = (len(x_list)//10)*9
    while True:
        for i in range(train_length):
            train_x = np.array([x_list[i]])
            train_y = np.array([y_list[i]])
            yield train_x, train_y

def val_generator(x_list, y_list):
    # 0.1 validation split
    val_length = len(x_list)//10
    while True:
        for i in range(-val_length, 0, 1):
            val_x = np.array([x_list[i]])
            val_y = np.array([y_list[i]])
            yield val_x, val_y



with tf.Session(config = tf.ConfigProto(log_device_placement = True)):
model = Sequential()
model.add(LSTM(64, return_sequences=False,
               input_shape=(None, 24)))
model.add(Dense(1))
model.compile(loss='mae', optimizer='adam')
checkpointer = ModelCheckpoint(filepath="weights.hdf5",
                               monitor='val_loss', verbose=1,
                               save_best_only=True)

history = model.fit_generator(generator=train_generator(train_x,
                                                        train_y),
                              steps_per_epoch=(len(train_x)//10)*9,
                              epochs=5,
                              validation_data=val_generator(train_x,
                                                            train_y),
                              validation_steps=len(train_x)//10,
                              callbacks=[checkpointer],
                              verbose=2, shuffle=False)
# plot history
pyplot.plot(history.history['loss'], label='train')
pyplot.plot(history.history['val_loss'], label='validation')
pyplot.legend()
pyplot.show()

我希望使用 GPU 进行训练时速度会显着提高。我怎样才能解决这个问题？有人可以帮助我了解导致减速的原因吗？谢谢你。

最佳答案

几个观察:

使用 CuDNNLSTM而不是 LSTM在 GPU 上训练，你会看到速度的显着提高。

有时，对于非常小的网络，在 CPU 和 GPU 之间传输的开销超过在 GPU 上进行的并行计算；换句话说，传输数据损失的时间比在 GPU 上训练获得的时间多。

GPU 应该用于高度密集的任务和计算(非常大的 LSTM/重型 CNN 网络)。然而，对于非常小的 MLP 甚至小的 LSTM，您可能会观察到网络在 CPU 和 GPU 上的训练速度同样快，或者在某些特定情况下 CPU 上的速度甚至更好(对于超小型网络非常特殊的情况)。
TensorFlow 更新 >= 2.0
导入默认使用 CuDNNLSTM/ CuDNNGRU如果检测到显卡；因此不需要明确导入它们。

关于GPU 上的 Tensorflow 比 CPU 上的慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56745316/

文章推荐： Angular 8 : assets not loading

文章推荐： java - 我们可以在Java中有一个自定义的垃圾收集器吗？

文章推荐： java - 在 Java 中为 Deque 分配大小

文章推荐： python-3.x - 在 python 中为 S3 文件夹创建预先签名的 url

cpu-usage - CPU 使用率和 CPU 使用率之间的区别？
我想知道在谈到 CPU 使用率和 CPU 利用率时，术语是否存在科学差异。我觉得这两个词都被用作同义词。它们都描述了 CPU 时间和 CPU 容量之间的关系。 Wikipedia称之为 CPU 使用率
cpu - CPU 指令重新排序的跟踪
我研究了一些关于处理器和 Tomasulo 算法的指令重新排序的内容。为了更深入地了解这个主题，我想知道是否有任何方法可以(获取跟踪)查看为给定程序完成的实际动态重新排序？我想给出一个输入程序并查
cpu-architecture - 本地 CPU 可能会降低远程 CPU 的数据包接收性能
我有一台配备 2 个 Intel Xeon CPU E5-2620 (Sandy Bridge) 和 10Gbps 82599 NIC(2 个端口)的服务器，用于高性能计算。从 PCI 关联性中，我看
cpu - 用户 CPU 时间 vs 系统 CPU 时间？
您能详细解释一下“用户 CPU 时间”和“系统 CPU 时间”吗？我读了很多，但我不太理解。最佳答案区别在于时间花在用户空间还是内核空间。用户 CPU 时间是处理器运行程序代码(或库中的代码)所花
cpu - 如何确定 CPU 是否与 ARM v5 cpu 指令兼容
我想知道如何识别 CPU 是否与 ARM v5 指令集兼容。假设 ARM v7 指令与 ARM v5 兼容是否正确？最佳答案您可以阅读 CPUID base register获得PARTNO。然
c - 如何在单个 CPU 的多个 cpu 内核上设置亲和性而不是在多个 CPU 上？
我目前在具有多个六核 CPU 的服务器上使用 C 多线程。我想将我的一些线程的亲和性设置为单个 CPU 的各个核心。我使用过 pthread_setaffinity_np() 和 sched_seta
android - 在traceview中Incl CPU Time，Excl CPU Time，Incl Real CPU Time，Excl Real CPU Time是什么意思？
1) 独占时间是在方法中花费的时间2) 包含时间是在方法中花费的时间加上在任何被调用函数中花费的时间3)我们称调用方法为“ parent ”，称方法为“子”。引用链接:Click here 这里的问题
c - 编写一段代码，该代码在新 cpu 上比在旧 cpu 上运行的 cpu 周期更多
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
cpu - 编译器完成的指令重新排序与 cpu 完成的指令重新排序之间有什么关系？
好的，所以编译器可以出于性能原因自由地重新排序代码片段。让我们假设一些代码片段，在没有应用优化的情况下直接翻译成机器代码，看起来像这样: machine_instruction_1 machine_i
cpu - "CPU jumps"是什么意思？
我在 zabbix 中有以下默认图表，但我不知道如何解释这些值。谁能解释一下？最佳答案操作系统是一件非常忙碌的事情，尤其是当你让它做某事时(即使你没有做)。当我们看到一个活跃的企业环境时，总会发生
cpu - 缓存是否具有 CPU 的字节序？
换句话说，L1、L2、L3 等缓存是否总是反射(reflect) CPU的字节序 ? 或者总是将数据存储在某些的缓存中更有意义吗？特定字节序 ? 有没有总体设计决策 ? 最佳答案大多数现代缓存不会
cpu - 现代 CPU 是否跳过乘法为零？
我想知道当前的 cpus 是否避免在其中至少一个为零时将两个数字相乘。谢谢最佳答案这取决于 CPU 和(在某些情况下)操作数的类型。较旧/较简单的 CPU 通常使用如下乘法算法: integer
cpu - CUDA 回退到 CPU？
我有一个 CUDA 应用程序，它在一台计算机(配备 GTX 275)上运行良好，而在另一台配备 GeForce 8400 的计算机上运行速度慢了大约 100 倍。我怀疑有某种回退使代码实际上在 CPU
cpu - 堆栈宽度是否始终与 CPU 寄存器大小相同？
例如，对于 8 位 CPU，堆栈大小预计为 8 位宽，16 位 CPU 与 16 位堆栈宽度，以及 32 位、64 位 CPU，等等。是否适用于所有架构？最佳答案 CPU 具有数据总线和地址总线。它
cpu - SIMD 是否需要多核 CPU？
实现 SIMD 是否需要多核 CPU？在阅读有关 SIMD 的维基百科时，我发现了以下短语“多处理元素”。那么这句话和“多核CPU”有什么区别呢？最佳答案不，每个内核通常都可以执行指令集中的大多
cpu - 了解 CPU 流水线阶段与指令吞吐量
我遗漏了一些基本的东西。 CPU 流水线:在基本层面上，为什么指令需要不同数量的时钟周期才能完成，为什么有些指令在多级 CPU 中只需要 1 个周期？除了明显的“不同的指令需要不同的工作量才能完成”
cpu - 超线程 CPU 是实现并行还是仅实现并发？
超线程 CPU 是实现并行还是仅实现并发(上下文切换)？我的猜测是没有并行性，只有通过上下文切换的并发性。最佳答案单个物理 CPU 具有超线程的核心显示为两个逻辑 CPU 到操作系统。 CPU
cpu - 理解 cpu 信息
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
cpu - 哪些 CPU 指令最耗电？
背景是这样的:下周我们的办公室将有一天因为维护而没有暖气。预计室外温度在 7 至 12 摄氏度之间，因此可能会变冷。可移植电取暖器数量太少，无法满足所有人的需求。但是，在我大约 6-8 平方米的办公
Docker cpu 共享并保证容器的最小分配 CPU
我开发了一个应用程序，该应用程序在我的开发箱上的三个容器中运行，该开发箱具有带超线程的四核，这意味着系统和 docker 使用 8 个核心。容器的 CPU 分配由 docker-compose 完成

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

GPU 上的 Tensorflow 比 CPU 上的慢