- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在两台不同的机器上运行深度学习 CNN(4-CNN 层和 3 个 FNN 层)模型(用 Keras 编写,以 tensorflow 作为后端)。
我有 2 台机器(A:带有 2GB 内存和时钟速度的 GTX 960 图形 GPU:1.17 GHz 和 B:带有带有 12GB 内存和时钟速度的 Tesla K40 计算 GPU:745MHz)
但是当我在 A 上运行 CNN 模型时:Epoch 1/35
50000/50000 [==============================] - 10s 198us/step - loss: 0.0851 - acc: 0.2323
在 B 上:Epoch 1/35
50000/50000 [==============================] - 43s 850us/step - loss: 0.0800 - acc: 0.3110
数字甚至没有可比性。我对深度学习和在 GPU 上运行代码很陌生。有人可以帮我解释为什么数字如此不同吗?
最佳答案
TL;博士:使用更大的批量大小再次测量。
这些结果并不让我感到惊讶。认为昂贵的 Tesla 卡(或 GPU)会自动更快地完成所有事情是一个常见的错误。您必须了解 GPU 的工作原理才能利用其功能。
如果您比较设备的基本时钟速度,您会发现您的至强 CPU 具有最快的速度:
nvidia-smi
的输出工具对于查看 GPU 的真正繁忙程度也非常有用。
关于tensorflow - 计算 GPU (Tesla K40c) 比图形 GPU (GTX 960) 慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48589317/
Mac Big Sur C++ OpenGL 尝试从教程中学习四元数。gtx header 位于 usr/local/include/glm 下。任何人都可以找出我的标题包含或标题搜索路径有什么问题吗
我预计 GTX 680(最新版本的 GPU 之一)能够并发数据传输(双向并发数据传输)。但是当我运行cuda SDK“Device Query”时,“Concurrent copy and execu
我正在尝试实现简单的动态并行编程示例,例如.. __global__ ChildKernel(void* data){ //Operate on data } __global__ Paren
我在问以下问题,因为我很困惑...... 在各种网站和论文中,我发现有声明说 Kepler 架构增加了每个线程的寄存器数量,但在我的 GTX680 上,这似乎不是真的,因为 RegsPerBlock
当我尝试重叠数据传输和内核执行时,无论我使用什么流,卡似乎都按顺序执行所有内存传输。 所以,如果我发出以下命令: 流 1:MemcpyA_HtoD_1;内核_1; MemcpyA_DtoH_1 流 2
我有 GTX Titan Z 显卡。它有双 GPU,总内存为 12 GB(6GB + 6GB)。当我使用 Cuda Sample (V6.5) 文件夹中的 DeviceQuery 应用程序查看规范时,
我正在 OpenGL 中实现深度预传递。在 Intel HD Graphics 5500 上,此代码工作正常,但在 Nvidia GeForce GTX 980 上却没有(下图显示了产生的 z-fig
我有一个 Ubuntu 14.04 LTS 64 位,带有 Nvidia 显卡 - GTX 1070(第 10 代)。我正在尝试构建 TensorFlow。 我尝试使用 CUDA 7.5 和 CuDN
调用时 cudaError_t cuda_error; int device; cuda_error = cudaGetDevice(&device); assert(cudaSuccess == c
我在尝试追踪内存使用情况时遇到了 Geforce GTX 690 问题。一个简单的测试程序: BOOST_AUTO_TEST_CASE(cudaMemoryTest) { size_t mem_tot
我在编写一些 C++ AMP 代码时遇到了问题。我已经包含了一个样本。它在模拟加速器上运行良好,但在我的硬件(Windows 7、NVIDIA GeForce GTX 660、最新驱动程序)上使显示驱
我知道网格通过存储来工作,在我的实例中是 ListStore。如果我更改存储以重新加载/刷新数据,有没有办法可以调用网格? 最佳答案 试试这个: grid.getView().refresh(fals
我正在 GTX 980 ti 卡上尝试动态并行。所有运行代码的尝试都会返回“未知错误”。下面显示了带有编译选项的简单代码。 我可以毫无问题地在 depth=0 执行内核。第一次调用child时报错。c
我认为这可能是一个非常愚蠢的问题,但我对 OpenCL 还很陌生,只是让它在配备 GTX 760 GPU 的台式计算机上运行。 现在,当我查询 OpenCL 的 CL_DEVICE_MAX_COMPU
我正在尝试安装支持 CUDA 的 Tensorflow。这是我的规范: NVIDIA GTX 1070 CUDA 7.5 Cudnn v5.0 我已经通过 pip 安装安装了 Tensorflow -
我正在使用 tensorflow 训练 CNN 模型。我的 GPU 利用率仅达到 60% (+- 2-3%),没有大幅下降。 Sun Oct 23 11:34:26 2016 +-----
是否可以在 Windows 7 的 GTX590 上使用 Parallel Nsight 进行本地调试?我知道要进行本地调试,您需要两个 GPU。 590 有两个 GPU,但我无法让它工作。我收到错误
我一直在为我的计算机科学课制作游戏。为简单起见,我一直在制作一组迷你游戏。为了好玩,我尝试制作了经典贪吃蛇游戏的 3d 版本。物理和碰撞检测工作正常,并且在学校计算机(中等质量的 mac)上游戏运行非
我试图用 memcpyasync 重叠内核执行,但它不起作用。我遵循编程指南中的所有建议,使用固定内存、不同的流等。我看到内核执行确实重叠,但它没有与内存传输重叠。我知道我的卡只有一个复制引擎和一个执
我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D。我已经重写了该库以使用 Nvidia nvision 进行立体 3D。我正在使用带有 GLUT 的 OpenGL,并使
我是一名优秀的程序员,十分优秀!