gpt4 book ai didi

c - 与 Geforce 相比,Tesla 的内核开销要少多少?

转载 作者:太空宇宙 更新时间:2023-11-03 23:52:43 30 4
gpt4 key购买 nike

采用 TCC 模式的 Tesla(Fermi 或 Kepler)与采用 WDDM 的 Geforce(同代)相比?

我编写的程序在内核开销方面存在一些非常严重的问题,因为它必须重复启动内核,开销如此之大,我不得不将许多内核合并在一起,并用内存空间换取更少的内核启动,但它只能工作到目前为止,这要归功于 GPU 显存的巨大容量。

我听说TCC模式可以有更少的开销,但是它能把开销性能提升到CPU级别吗?

由于我阅读了一些基准测试,至少对于 Geforce 280 GTX,内核调用开销比 CPU 的函数调用开销长数千倍,并且对于需要大量重复迭代的方法,它会在这里产生巨大的性能差异.

最佳答案

WDDM 驱动程序将一起批处理内核启动以减少开销。因此,如果您能够将内核合并在一起以减少启动开销,那么 WDDM 驱动程序也将如此(除非您在两者之间使用 CUDA 调用来防止批处理)。因此,在此特定用例中,切换到 TCC 模式不会给您带来太多好处。

您确定问题出在启动开销上而不是其他原因吗?您要启动多少个单独的内核,这需要多长时间?
很可能(特别是在启动开销很明显的非常小的内核的情况下)将内核合并在一起允许编译器更好地优化内核,例如消除将中间结果写出和读回全局内存。

关于c - 与 Geforce 相比,Tesla 的内核开销要少多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15427213/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com