- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
采用 TCC 模式的 Tesla(Fermi 或 Kepler)与采用 WDDM 的 Geforce(同代)相比?
我编写的程序在内核开销方面存在一些非常严重的问题,因为它必须重复启动内核,开销如此之大,我不得不将许多内核合并在一起,并用内存空间换取更少的内核启动,但它只能工作到目前为止,这要归功于 GPU 显存的巨大容量。
我听说TCC模式可以有更少的开销,但是它能把开销性能提升到CPU级别吗?
由于我阅读了一些基准测试,至少对于 Geforce 280 GTX,内核调用开销比 CPU 的函数调用开销长数千倍,并且对于需要大量重复迭代的方法,它会在这里产生巨大的性能差异.
最佳答案
WDDM 驱动程序将一起批处理内核启动以减少开销。因此,如果您能够将内核合并在一起以减少启动开销,那么 WDDM 驱动程序也将如此(除非您在两者之间使用 CUDA 调用来防止批处理)。因此,在此特定用例中,切换到 TCC 模式不会给您带来太多好处。
您确定问题出在启动开销上而不是其他原因吗?您要启动多少个单独的内核,这需要多长时间?
很可能(特别是在启动开销很明显的非常小的内核的情况下)将内核合并在一起允许编译器更好地优化内核,例如消除将中间结果写出和读回全局内存。
关于c - 与 Geforce 相比,Tesla 的内核开销要少多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15427213/
我有一个执行有限差分计算的 CUDA 代码。该代码在 Tesla M2090 处理器上运行良好,没有错误。相同的代码会在 Tesla T10 处理器中导致大量错误。我的结果中有很多零。 有谁知道这两种
我有一个执行有限差分计算的 CUDA 代码。该代码在 Tesla M2090 处理器上运行良好,没有错误。相同的代码会在 Tesla T10 处理器中导致大量错误。我的结果中有很多零。 有谁知道这两种
我打算购买一个真正的 GPU 来运行并行算法(预算 2k-4k)。现在我到处都能看到配备了“专为 GPGPU 设计”的 nVidia Tesla GPU 卡的 super 计算机。 虽然这乍一看似乎很
可以在 nvidia Tesla 上并发运行的线程总数是多少,比如 S1070。 最佳答案 结合来自 NVIDIA's product page 的信息与 this site和一个 interesti
我只是想知道我是否可以像普通服务器一样使用基于 tesla 的服务器(需要明确说明是 Tesla GPU)作为网络服务器,例如通过安装 apache 和 mysql? 如果可能的话,我想知道它是否会有
Closed. This question is off-topic。它当前不接受答案。 想要改善这个问题吗? Update the question,所以它是用于堆栈溢出的on-topic。 9年前
如您所知,SpaceX 将特斯拉跑车发射到太空,目前它正在绕太阳运行。 https://en.wikipedia.org/wiki/Elon_Musk%27s_Tesla_Roadster 我如何在
我有一小段代码可以在 Nvidia 旧架构(Tesla T10 处理器)上完美运行,但不能在 Fermi(Tesla M2090)上运行 我了解到费米的行为略有不同。因此,不安全的代码可能会在旧架构上
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 10 年前。 Improve thi
Closed. This question needs to be more focused。它当前不接受答案。
采用 TCC 模式的 Tesla(Fermi 或 Kepler)与采用 WDDM 的 Geforce(同代)相比? 我编写的程序在内核开销方面存在一些非常严重的问题,因为它必须重复启动内核,开销如此之
我想知道我是否可以使用 Nvidia Tesla K20 和 Direct3D 11? 我想使用 Direct3D 渲染图像,然后使用 CUDA 处理渲染图像,[我知道如何计算 CUDA 互操作性]。
我有兴趣测试我的神经网络(一个用作生成器的自动编码器 + 一个用作鉴别器的 CNN),它使用 3dconv/deconv 层和新的 Volta 架构,并从混合精度训练中受益。我用 CUDA 9 和 C
我有一个使用 OpenCL 的项目,该项目正在我的 MAC 上运行,具有以下规范: MacBook Air (13-inch, Mid 2013) 1.3 GHz Intel Core i5 Inte
我在我的算法中应用了 UVA 和 OpenMP 以使其更强大。 问题是,当我启动一个并行内核时,例如,3 个 CPU 线程同时启动一个内核。一个线程具有 nan 值。 GPU X 似乎无法从 GPU0
我可以访问运行 Debian 7 并安装了两 block Nvidia Tesla 卡的系统。我想使用 OpenCL 进行一些基准测试。然而,OpenCL 无法找到任何兼容平台。我是否需要任何额外的库
关闭。这个问题是off-topic .它目前不接受答案。 想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
我正在制作一个应用程序来跟踪诸如行驶里程、使用的千瓦时等信息。但是我很难弄清楚如何获取 client_id 和 client_secret,因为 API 是非官方的。 这是包含 API 详细信息的 A
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
之前我一直认为Tesla不会支持OpenGL API,但是最近了解到Tesla产品也可以通过OpenGL进行可视化。 我有一个工作站,其中有 2 个 Intel E5 CPU 和 1 个 Tesla
我是一名优秀的程序员,十分优秀!