c++ - 函数指针(指向其他内核)作为 CUDA 中的内核 arg-6ren

c++ - 函数指针(指向其他内核)作为 CUDA 中的内核 arg

转载作者：太空狗更新时间：2023-10-29 21:18:32

30

4

借助 CUDA 中的动态并行性，您可以从特定版本开始在 GPU 端启动内核。我有一个包装函数，它接受一个指向我想使用的内核的指针，它要么在旧设备的 CPU 上执行此操作，要么在新设备的 GPU 上执行此操作。对于回退路径，它很好，对于 GPU，它不是，并且说内存对齐不正确。

有没有办法在 CUDA (7) 中做到这一点？是否有一些较低级别的调用会给我一个在 GPU 上正确的指针地址？

代码如下，模板“TFunc”试图让编译器做一些不同的事情，但我也试过它是强类型的。

template <typename TFunc, typename... TArgs>
__global__ void Test(TFunc func, int count, TArgs... args)
{
#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 320)
    (*func)<< <1, 1 >> >(args...);
#else
    printf("What are you doing here!?\n");
#endif
}

template <typename... TArgs>
__host__ void Iterate(void(*kernel)(TArgs...), const systemInfo *sysInfo, int count, TArgs... args)
{
    if(sysInfo->getCurrentDevice()->compareVersion("3.2") > 0)
    {
        printf("Iterate on GPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
    else
    {
        printf("Iterate on CPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
}

最佳答案

编辑:在我最初写这个答案的时候，我相信这些陈述是正确的:不可能在主机代码中获取内核地址。但是我相信从那时起 CUDA 中发生了一些变化，所以现在(在 CUDA 8 中，可能更早)可以在主机代码中获取一个 kernel 地址(仍然不可能获取地址但是，主机代码中的 __device__ 函数。)

原始答案:

虽然 previous examples I can think of 似乎不时出现这个问题与调用 __device__ 函数而不是 __global__ 函数有关。

一般来说，在主机代码中获取设备实体(变量、函数)的地址是非法的。

解决此问题的一种可能方法(尽管我不清楚它的效用；似乎会有更简单的调度机制)是“在设备代码中”提取所需的设备地址并将该值返回给主机，用于调度使用。在这种情况下，我正在创建一个简单的示例，将所需的设备地址提取到 __device__ 变量中，但您也可以编写内核来执行此设置(即“给我一个正确的指针地址GPU”。

这是一个粗略的例子，建立在你展示的代码之上:

$ cat t746.cu
#include <stdio.h>

__global__ void ckernel1(){

  printf("hello1\n");
}
__global__ void ckernel2(){

  printf("hello2\n");
}
__global__ void ckernel3(){

  printf("hello3\n");
}

__device__ void (*pck1)() = ckernel1;
__device__ void (*pck2)() = ckernel2;
__device__ void (*pck3)() = ckernel3;

template <typename TFunc, typename... TArgs>
__global__ void Test(TFunc func, int count, TArgs... args)
{
#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 350)
    (*func)<< <1, 1 >> >(args...);
#else
    printf("What are you doing here!?\n");
#endif
}

template <typename... TArgs>
__host__ void Iterate(void(*kernel)(TArgs...), const int sysInfo, int count, TArgs... args)
{
    if(sysInfo >= 350)
    {
        printf("Iterate on GPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
    else
    {
        printf("Iterate on CPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
}


int main(){

  void (*h_ckernel1)();
  void (*h_ckernel2)();
  void (*h_ckernel3)();
  cudaMemcpyFromSymbol(&h_ckernel1, pck1, sizeof(void *));
  cudaMemcpyFromSymbol(&h_ckernel2, pck2, sizeof(void *));
  cudaMemcpyFromSymbol(&h_ckernel3, pck3, sizeof(void *));
  Iterate(h_ckernel1, 350, 1);
  Iterate(h_ckernel2, 350, 1);
  Iterate(h_ckernel3, 350, 1);
  cudaDeviceSynchronize();
  return 0;
}

$ nvcc -std=c++11 -arch=sm_35 -o t746 t746.cu -rdc=true -lcudadevrt
$ cuda-memcheck ./t746
========= CUDA-MEMCHECK
Iterate on GPU
Iterate on GPU
Iterate on GPU
hello1
hello2
hello3
========= ERROR SUMMARY: 0 errors
$

上面的 (__device__ variable) 方法可能无法与模板化的子内核一起工作，但是可以创建一个模板化的“提取器”内核，它返回一个 (实例化)模板化的子内核。我链接的上一个答案中给出了“提取器”setup_kernel 方法的粗略概念。这是模板化子内核/提取器内核方法的粗略示例:

$ cat t746.cu
#include <stdio.h>

template <typename T>
__global__ void ckernel1(T *data){

  int my_val = (int)(*data+1);
  printf("hello: %d \n", my_val);
}
template <typename TFunc, typename... TArgs>
__global__ void Test(TFunc func, int count, TArgs... args)
{
#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 350)
    (*func)<< <1, 1 >> >(args...);
#else
    printf("What are you doing here!?\n");
#endif
}

template <typename... TArgs>
__host__ void Iterate(void(*kernel)(TArgs...), const int sysInfo, int count, TArgs... args)
{
    if(sysInfo >= 350)
    {
        printf("Iterate on GPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
    else
    {
        printf("Iterate on CPU\n");
        Test << <1, 1 >> >(kernel, count, args...);
    }
}

template <typename T>
__global__ void extractor(void (**kernel)(T *)){

  *kernel = ckernel1<T>;
}

template <typename T>
void run_test(T init){

  void (*h_ckernel1)(T *);
  void (**d_ckernel1)(T *);
  T *d_data;
  cudaMalloc(&d_ckernel1, sizeof(void *));
  cudaMalloc(&d_data, sizeof(T));
  cudaMemcpy(d_data, &init, sizeof(T), cudaMemcpyHostToDevice);
  extractor<<<1,1>>>(d_ckernel1);
  cudaMemcpy((void *)&h_ckernel1, (void *)d_ckernel1, sizeof(void *), cudaMemcpyDeviceToHost);
  Iterate(h_ckernel1, 350, 1, d_data);
  cudaDeviceSynchronize();
  cudaFree(d_ckernel1);
  cudaFree(d_data);
  return;
}

int main(){

  run_test(1);
  run_test(2.0f);

  return 0;
}

$ nvcc -std=c++11 -arch=sm_35 -o t746 t746.cu -rdc=true -lcudadevrt
$ cuda-memcheck ./t746
========= CUDA-MEMCHECK
Iterate on GPU
hello: 2
Iterate on GPU
hello: 3
========= ERROR SUMMARY: 0 errors
$

关于c++ - 函数指针(指向其他内核)作为 CUDA 中的内核 arg，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30002353/

30

4

0

文章推荐： c++ - 指向 C 字符串的指针？

文章推荐： python - 从字段数据中获取 None 而不是空字符串

c - *指针 = - *指针？
我刚接触 C 语言几周，所以对它还很陌生。我见过这样的事情 * (variable-name) = -* (variable-name) 在讲义中，但它到底会做什么？它会否定所指向的值吗？最佳答案
c - void 指针 = int 指针 = float 指针
我有一个指向内存地址的void 指针。然后，我做 int 指针 = void 指针 float 指针 = void 指针然后，取消引用它们以获取值。 { int x = 25; vo
c++ - 需要将char*(指针)转换为wchar_t*(指针)
我正在与计算机控制的泵进行一些串行端口通信，我用来通信的 createfile 函数需要将 com 端口名称解析为 wchar_t 指针。我也在使用 QT 创建一个表单并获取 com 端口名称作为
C 指针。将大数赋值给 char * 指针
#include "stdio.h" #include "malloc.h" int main() { char*x=(char*)malloc(1024); *(x+2)=3; --
c - int 指针转换为 void 指针，然后转换为 double 指针
#include #include main() { int an_int; void *void_pointer = &an_int; double *double_ptr = void
从 C 中的 3D 指针/数组调用 2D 指针/数组
对于每个时间步长，我都有一个二维矩阵 a[ix][iz]，ix 从 0 到 nx-1 和 iz 从 0 到 nz-1。为了组装所有时间步长的矩阵，我定义了一个长度为 nx*nz*nt 的 3D 指针
c - 释放已分配给 char 指针(字符串)数组的内存。我必须释放每个字符串还是只释放 "main"指针？
我有一个函数，它接受一个指向 char ** 的指针并用字符串填充它(我猜是一个字符串数组)。 *list_of_strings* 在函数内部分配内存。 char * *list_of_strings
c - 使用 malloc 初始化 char 指针 VS 不使用 malloc 直接将字符串赋给 char 指针
我试图了解当涉及到字符和字符串时，内存分配是如何工作的。我知道声明的数组的名称就像指向数组第一个元素的指针，但该数组将驻留在内存的堆栈中。另一方面，当我们想要使用内存堆时，我们使用 malloc，
c# - 通过 P/Ivoke 在 C# 中传递 Struct 指针(主体中带有 char 指针)
我有一个 C 语言的 .DLL 文件。该 DLL 中所有函数所需的主要结构具有以下形式。 typedef struct { char *snsAccessID; char *
指针,C语言的精髓
指针, C语言的精髓莫队先咕几天, 容我先讲完树剖 (因为后面树上的东西好多都要用树剖求 LCA). 什么是指针保存变量地址的变量叫做指针. 这是大概的定义, 但是Defad认为
javascript使递归数组遍历并更新一些内部值(指针)
我得到了以下数组: let arr = [ { children: [ { children: [], current: tru
C程序输出困惑(指针)
#include int main(void) { int i; int *ptr = (int *) malloc(5 * sizeof(int)); for (i=0;
c程序，指针
我正在编写一个程序，它接受一个三位数整数并将其分成两个整数。 224 将变为 220 和 4。 114 将变为 110 和 4。基本上，您可以使用模数来完成。我写了我认为应该工作的东西，编译器一直说
循环中指向int的C++指针？
好吧，我对 C++ 很陌生，我确定这个问题已经在某个地方得到了回答，而且也很简单，但我似乎找不到答案.... 我有一个自定义数组类，我将其用作练习来尝试了解其工作原理，其定义如下: 标题: class
C++ `this` 指针
1) this 指针与其他指针有何不同？据我了解，指针指向堆中的内存。如果有指向它们的指针，这是否意味着对象总是在堆中构造？ 2)我们可以在 move 构造函数或 move 赋值中窃取this指针吗？
C结构，指针
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: C : pointer to struct in the struct definition 在我的初学者类
复制多维数组(指针)
我有两个指向指针的结构指针 typedef struct Square { ... ... }Square; Square **s1; //Representing 2D array of say,
c变量分配内存，指针
变量在内存中是如何定位的？我有这个代码 int w=1; int x=1; int y=1; int z=1; int main(int argc, char** argv) { printf
c编程语言，指针
#include #include main() { char *q[]={"black","white","red"}; printf("%s",*q+3); getch()
指向类成员的模板函数的C++指针
我在“C”类中有以下函数 class C { template void Func1(int x); template void Func2(int x); }; template void

首页

博学

6Ren·AI

商城

c++ - 函数指针(指向其他内核)作为 CUDA 中的内核 arg