gpt4 book ai didi

CUDA PTX 代码 %envreg<32> 特殊寄存器

转载 作者:行者123 更新时间:2023-12-01 12:48:54 26 4
gpt4 key购买 nike

我尝试使用 CUDA 驱动程序 API 运行由 .cl 内核生成的 PTX 汇编代码。我采取的步骤是这些(标准的opencl程序):

1) 加载 .cl 内核

2) JIT 编译

3) 获取编译好的ptx代码并保存。

到现在为止还挺好。

我注意到 ptx 程序集内的一些特殊寄存器,%envreg3,%envreg6 等。问题是当我尝试使用驱动程序 API。所以代码陷入了无限循环,无法正确运行。但是,如果我手动设置这些值(我将 %envreg6 替换为 ptx 中的 block 大小),代码正在执行并且我得到正确的结果(与 cpu 结果相比是正确的)。

有谁知道我们可以设置值到这些寄存器,或者如果我遗漏了什么?即 cuLaunchKernel 上的一个标志,它为这些寄存器设置值?

最佳答案

您正在尝试编译 OpenCL 内核并使用 CUDA 驱动程序 API 运行它。 OpenCL 和 CUDA 之间的 NVIDIA 驱动程序/编译器接口(interface)不同,因此您想要做的事情不受支持,根本无法工作。

据推测,唯一的解决方法是您找到的解决方法:修补 PTX 代码。但恐怕这在一般情况下可能不起作用。

编辑:
具体来说,OpenCL 支持的网格比大多数 NVIDIA GPU 支持的更大,因此需要通过划分多个实际网格启动来虚拟化网格大小,因此需要偏移。同样在 OpenCL 中,索引不一定从 (0, 0, 0) 开始,用户可以指定驱动程序必须传递给内核的偏移量。因此,为 OpenCL 和 CUDA C 启动初始化的寄存器是不同的。

关于CUDA PTX 代码 %envreg<32> 特殊寄存器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13803882/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com