tensorflow - 计算 GPU (Tesla K40c) 比图形 GPU (GTX 960) 慢-6ren

tensorflow - 计算 GPU (Tesla K40c) 比图形 GPU (GTX 960) 慢

转载作者：行者123 更新时间：2023-12-03 14:49:53

26

4

我正在两台不同的机器上运行深度学习 CNN(4-CNN 层和 3 个 FNN 层)模型(用 Keras 编写，以 tensorflow 作为后端)。

我有 2 台机器(A:带有 2GB 内存和时钟速度的 GTX 960 图形 GPU:1.17 GHz 和 B:带有带有 12GB 内存和时钟速度的 Tesla K40 计算 GPU:745MHz)
但是当我在 A 上运行 CNN 模型时:
Epoch 1/35 50000/50000 [==============================] - 10s 198us/step - loss: 0.0851 - acc: 0.2323
在 B 上:
Epoch 1/35 50000/50000 [==============================] - 43s 850us/step - loss: 0.0800 - acc: 0.3110
数字甚至没有可比性。我对深度学习和在 GPU 上运行代码很陌生。有人可以帮我解释为什么数字如此不同吗？

数据集:CIFAR-10(32x32 RGB 图像)

模型批量大小:128

参数型号:1.2M

操作系统:Ubuntu 16.04

Nvidia 驱动程序版本:384.111

Cuda 版本:7.5、V7.5.17

如果您需要更多数据，请告诉我。

编辑1:(添加CPU信息)

机器 A (GTX 960):8 核 - Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz

机器 B (Tesla K40c):8 核 - Intel(R) Xeon(R) CPU E5-2637 v4 @ 3.50GHz

最佳答案

TL;博士:使用更大的批量大小再次测量。

这些结果并不让我感到惊讶。认为昂贵的 Tesla 卡(或 GPU)会自动更快地完成所有事情是一个常见的错误。您必须了解 GPU 的工作原理才能利用其功能。

如果您比较设备的基本时钟速度，您会发现您的至强 CPU 具有最快的速度:

英伟达 K40c:745MHz

英伟达 GTX 960:1127MHz

英特尔 i7:3400MHz

英特尔至强:3500MHz

这为您提供了这些设备运行速度的提示，并非常粗略地估计了如果它们一次只做一件事，即没有并行化，它们处理数字的速度有多快。

因此，如您所见，GPU 根本不快(对于快速的某些定义)，实际上它们非常慢。还要注意 K40c 实际上比 GTX 960 慢。
然而，GPU 的真正力量来自于它同时处理大量数据的能力!如果您现在再次检查这些设备上可以进行多少并行化，您会发现您的 K40c 毕竟还不错:

Nvidia K40c:2880 个 cuda 核心

Nvidia GTX 960:1024 个 cuda 核心

英特尔 i7:8 线程

英特尔至强:8 线程

同样，这些数字可以让您非常粗略地估计这些设备可以同时做多少事情。

注:我正在认真地简化事情:CPU 内核绝对无法与 cuda 内核相提并论!它们是非常非常不同的东西。绝对不能像这样比较基本时钟频率!这只是为了了解正在发生的事情。

因此，您的设备需要能够并行处理大量数据以最大化其吞吐量。幸运的是，tensorflow 已经为您做到了:它会自动并行化所有这些繁重的矩阵乘法，以获得最大的吞吐量。但是，如果矩阵具有特定大小，这只会很快。您的批量大小设置为 128，这意味着几乎所有这些矩阵的第一个维度都设置为 128。我不知道您模型的详细信息，但如果其他维度也不大，那么我怀疑大多数在这些矩阵乘法期间，您的 K40c 处于空闲状态。尝试增加批量大小并再次测量。您应该会发现，与 GTX 960 相比，更大的批次大小将使 K40c 更快。增加模型容量也是如此:增加全连接层中的单元数量和卷积层中的过滤器数量.添加更多层在这里可能无济于事。 nvidia-smi的输出工具对于查看 GPU 的真正繁忙程度也非常有用。

但是请注意，更改模型的超参数和/或批量大小当然会对模型如何成功训练产生巨大影响，当然您也可能会遇到内存限制。

也许如果增加批量大小或更改模型不是一种选择，您也可以尝试在 K40c 上同时训练两个模型以利用空闲内核。但是我从来没有尝试过这个，所以它可能根本不起作用。

关于tensorflow - 计算 GPU (Tesla K40c) 比图形 GPU (GTX 960) 慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48589317/

26

4

0

文章推荐： unit-testing - 如何创建 Single.just(Void)

文章推荐： arrays - 如何获取 const 数组的类型和值？

文章推荐： conv-neural-network - 在灰度图像网络上训练的 VGG16

文章推荐： firebase - 一个域上的多个项目

c++ - 搜索路径 "/usr/local/include/glm/gtx"与使用未声明的标识符 'gtx'
Mac Big Sur C++ OpenGL 尝试从教程中学习四元数。gtx header 位于 usr/local/include/glm 下。任何人都可以找出我的标题包含或标题搜索路径有什么问题吗
cuda - GTX 680 是否能够并发数据传输
我预计 GTX 680(最新版本的 GPU 之一)能够并发数据传输(双向并发数据传输)。但是当我运行cuda SDK“Device Query”时，“Concurrent copy and execu
c++ - GTX 550 Ti显卡支持的动态并行编程？
我正在尝试实现简单的动态并行编程示例，例如.. __global__ ChildKernel(void* data){ //Operate on data } __global__ Paren
cuda - GTX 680、Keplers 和每个线程的最大寄存器数
我在问以下问题，因为我很困惑...... 在各种网站和论文中，我发现有声明说 Kepler 架构增加了每个线程的寄存器数量，但在我的 GTX680 上，这似乎不是真的，因为 RegsPerBlock
cuda - 在 GTX Titan 卡中重叠内核执行和数据传输的最佳策略是什么？
当我尝试重叠数据传输和内核执行时，无论我使用什么流，卡似乎都按顺序执行所有内存传输。所以，如果我发出以下命令: 流 1:MemcpyA_HtoD_1；内核_1； MemcpyA_DtoH_1 流 2
cuda - GTX Titan Z 全局内存
我有 GTX Titan Z 显卡。它有双 GPU，总内存为 12 GB(6GB + 6GB)。当我使用 Cuda Sample (V6.5) 文件夹中的 DeviceQuery 应用程序查看规范时，
opengl - GTX 980 深度预通过后的 Z-fighting
我正在 OpenGL 中实现深度预传递。在 Intel HD Graphics 5500 上，此代码工作正常，但在 Nvidia GeForce GTX 980 上却没有(下图显示了产生的 z-fig
ubuntu - 是否可以为 GTX 1070 构建 TensorFlow？
我有一个 Ubuntu 14.04 LTS 64 位，带有 Nvidia 显卡 - GTX 1070(第 10 代)。我正在尝试构建 TensorFlow。我尝试使用 CUDA 7.5 和 CuDN
c++ - GTX 970 的 CUDA 设备属性
调用时 cudaError_t cuda_error; int device; cuda_error = cudaGetDevice(&device); assert(cudaSuccess == c
memory - cudaMemGetInfo 在 GTX 690 的两个设备上返回相同数量的可用内存
我在尝试追踪内存使用情况时遇到了 Geforce GTX 690 问题。一个简单的测试程序: BOOST_AUTO_TEST_CASE(cudaMemoryTest) { size_t mem_tot
C++ AMP 在硬件上崩溃 (GeForce GTX 660)
我在编写一些 C++ AMP 代码时遇到了问题。我已经包含了一个样本。它在模拟加速器上运行良好，但在我的硬件(Windows 7、NVIDIA GeForce GTX 660、最新驱动程序)上使显示驱
java - GTX 3.0 网格小部件 - 如何刷新/重新加载网格
我知道网格通过存储来工作，在我的实例中是 ListStore。如果我更改存储以重新加载/刷新数据，有没有办法可以调用网格？最佳答案试试这个: grid.getView().refresh(fals
cuda - GTX 980 ti : Unknown Error 上的动态并行
我正在 GTX 980 ti 卡上尝试动态并行。所有运行代码的尝试都会返回“未知错误”。下面显示了带有编译选项的简单代码。我可以毫无问题地在 depth=0 执行内核。第一次调用child时报错。c
OpenCL 在 GTX 760 上只显示 6 个并行计算单元？
我认为这可能是一个非常愚蠢的问题，但我对 OpenCL 还很陌生，只是让它在配备 GTX 760 GPU 的台式计算机上运行。现在，当我查询 OpenCL 的 CL_DEVICE_MAX_COMPU
machine-learning - Tensorflow CUDA GTX 1070 导入错误
我正在尝试安装支持 CUDA 的 Tensorflow。这是我的规范: NVIDIA GTX 1070 CUDA 7.5 Cudnn v5.0 我已经通过 pip 安装安装了 Tensorflow -
performance - Tensorflow GPU 利用率仅为 60% (GTX 1070)
我正在使用 tensorflow 训练 CNN 模型。我的 GPU 利用率仅达到 60% (+- 2-3%)，没有大幅下降。 Sun Oct 23 11:34:26 2016 +-----
GTX 590 上的 CUDA Parallel Nsight 本地调试
是否可以在 Windows 7 的 GTX590 上使用 Parallel Nsight 进行本地调试？我知道要进行本地调试，您需要两个 GPU。 590 有两个 GPU，但我无法让它工作。我收到错误
java - 简单的 JOGL 游戏在 gtx 470 上运行非常缓慢
我一直在为我的计算机科学课制作游戏。为简单起见，我一直在制作一组迷你游戏。为了好玩，我尝试制作了经典贪吃蛇游戏的 3d 版本。物理和碰撞检测工作正常，并且在学校计算机(中等质量的 mac)上游戏运行非
concurrency - 为什么我无法与 GTX 480 和 CUDA 5 重叠数据传输和计算？
我试图用 memcpyasync 重叠内核执行，但它不起作用。我遵循编程指南中的所有建议，使用固定内存、不同的流等。我看到内核执行确实重叠，但它没有与内存传输重叠。我知道我的卡只有一个复制引擎和一个执
opengl - 如何在 GTX 560 及更高版本上使用 OpenGL 进行立体 3D？
我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D。我已经重写了该库以使用 Nvidia nvision 进行立体 3D。我正在使用带有 GLUT 的 OpenGL，并使

首页

博学

6Ren·AI

商城

tensorflow - 计算 GPU (Tesla K40c) 比图形 GPU (GTX 960) 慢