gpt4 book ai didi

CUDA 程序在 Tesla K20 上运行速度比 GTX 965 慢

转载 作者:行者123 更新时间:2023-11-30 18:54:37 28 4
gpt4 key购买 nike

我正在做一个项目,我必须比较各种 GPU 卡以进行性能分析。

我在两个 GPU 中为 Canny 边缘检测运行了相同的 cuda 代码,发现 gtx 965 比 Tesla K20 快得多(200%)。我还观察到 Tesla C2075 的运行情况与 Tesla K20 相同。

据我所知,K20有2496个核心,965有1024个核心,C2075有448个核心。 K20和C2075是NVIDIA Kepler架构,965是Maxwell架构。

我做错了什么或者导致此问题的硬件部分是否有任何差异?

另外,我们可以使用任何程序或理论计算来检查显卡消耗的功率吗?

最佳答案

许多核心并不一定意味着更短的执行时间。如果您的 CUDA 应用程序仅使用单线程并且您将在以下位置运行您的应用程序:

  • K20,拥有大量核心,频率为 706MHz,
  • 与 GTX965 不同,GTX965 大约有一半,但工作频率为 944MHz

...那么显然 GTX965 可以工作得更快。理论上,只要您的应用程序使用的核心数少于 1024 个,GTX 的性能就可以优于 K20,前提是内存不是 K20 实际存在的瓶颈:

  • 更大的内存带宽,
  • 总体来说内存更多,
  • 内存时钟稍高一点。

因此,总而言之,考虑到硬件限制,“定制”CUDA 应用程序以比其他 GPU 更适合一种 GPU 是非常容易的。只需考虑内核启动参数等简单的事情,即网格大小和 block 大小。

此外,C2075 也是如此。根据规范,其核心频率为1.15GHz,优于K20和GTX965。

关于CUDA 程序在 Tesla K20 上运行速度比 GTX 965 慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29945529/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com