gpt4 book ai didi

c++ - 当我有表面声明时,如何为 sm_1X 和 sm_2X 编译 CUDA 程序

转载 作者:太空狗 更新时间:2023-10-29 21:27:01 28 4
gpt4 key购买 nike

我正在编写一个库,该库使用表面(重新采样并写入纹理)以提高性能:

...
surface<void, 2> my_surf2D; //allows writing to a texture
...

目标平台 GPU 具有 2.0 计算能力,我可以使用以下代码编译我的代码:

nvcc -arch=sm_20 ...

而且效果很好。

问题是当我试图在我的笔记本电脑上开发和调试库时,它有一个计算能力为 1.1 的 NVIDIA ION GPU(我也希望我的库向后兼容)。我知道这个架构不支持表面,所以我在我的设备代码中使用了 nvcc 宏来为这个旧架构定义一个备用代码路径:

#if (__CUDA_ARCH__ < 200)
#warning using kernel for CUDA ARCH < 2.0
...
temp_array[...] = tex3D(my_tex,X,Y,Z+0.5f);
#else
...
surf2Dwrite( tex3D(my_tex,X,Y,Z+0.5f), my_surf2D, ix*4, iy,cudaBoundaryModeTrap);
#endif

问题是当我这样做时:

nvcc -gencode arch=compute_11,code=sm_11

我收到这个错误:

ptxas PTX/myLibrary.ptx, line 1784; fatal  : Parsing error near '.surf': syntax error

当我查看 PTX 文件时,看到的似乎是表面声明:

.surf .u32 _ZN16LIB_15my_surf2DE;

如果我尝试在源代码中的表面声明周围放置一个类似的宏:

#ifdef __CUDACC__
#if __CUDA_ARCH__ < 200
#warning skipping surface declaration for nvcc trajectory
#else
surface ...
#endif
#else
#warning keeping surface declaration by default
surface ...
#endif

我收到一条错误消息,指出在将 cuda 曲面绑定(bind)到数组的主机代码调用中曲面变量未定义。我是否也应该在绑定(bind)函数周围添加宏

我不确定是否可行,或者如果我在某处搞砸了,请帮忙。

最佳答案

认为这个线程应该显示为已回答...

我让它工作了(实际上很简单)。您必须在使用表面引用的所有三个可能位置周围放置一个宏,并注意正确使用宏(事实证明,__CUDACC__ 不是必需的)。

以下仅针对计算能力<2.0编译时更改代码

表面声明:

//enable backwards compatability:
#if defined(__CUDA_ARCH__) & (__CUDA_ARCH__ < 200)
#warning skipping surface declarations for compute capability < 2.0
#else
surface<void, 2> my_surf2D; //allows writing to a texture
#endif

表面绑定(bind):

#if defined(__CUDA_ARCH__) & (__CUDA_ARCH__ < 200)
#warning skipping cudaBindSurfaceToArray for compute capability < 2.0
...
#else
errorCode = cudaBindSurfaceToArray(my_surf2D, my_cudaArray2D);
#endif

和表面书写:

#if defined(__CUDA_ARCH__) & (__CUDA_ARCH__ < 200)
#warning using kernel for compute capability < 2.0
...
temp_array[...] = tex3D(my_tex,X,Y,Z+0.5f);
#else
...
surf2Dwrite( tex3D(my_tex,X,Y,Z+0.5f), my_surf2D, ix*4, iy,cudaBoundaryModeTrap);
#endif

这适用于虚拟和真实目标(分别为 -arch=compute_XX 和 -arch=sm_XX)。

感谢talonmiesRoger Dahl为我指明了正确的方向,以及 this answer来自 talonmies这对 nvcc/CUDA 宏也有很好的解释。

关于c++ - 当我有表面声明时,如何为 sm_1X 和 sm_2X 编译 CUDA 程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10161387/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com