gpt4 book ai didi

c++ - nVidia CUDA 代码不起作用?

转载 作者:太空宇宙 更新时间:2023-11-04 13:58:15 25 4
gpt4 key购买 nike

我正在努力学习如何为 nVidia 卡编程。这是我的代码:

__global__ void add_one(int* i)
{
i[0]++;
}

template<class TYPE>
void gpu_load(TYPE data)
{
int size = 1;
cudaMalloc( (void**) &data, size * sizeof(TYPE));
}

template<class TYPE>
void copy_to_gpu(TYPE* cpu_var, TYPE* gpu_var)
{
int size = 1;
cudaMemcpy( gpu_var, cpu_var, size * sizeof(TYPE), cudaMemcpyHostToDevice);
}

template<class TYPE>
void copy_to_cpu(TYPE* cpu_var, TYPE* gpu_var)
{
int size = 1;
cudaMemcpy( gpu_var, cpu_var, size * sizeof(TYPE), cudaMemcpyDeviceToHost);
}

int main()
{
int gpu_i[1];
int cpu_i[1];

cpu_i[0] = 5;

gpu_load(cpu_i);
copy_to_gpu(cpu_i, gpu_i);

add_one<<<1, 1>>>(gpu_i);

int res[1];

copy_to_cpu(res, gpu_i);

std::cout << res[0];
}

为什么cout不显示5+1而是显示0?

我尽了最大努力使它工作...似乎什么也没发生...?

最佳答案

  • 您正在将 cpu_i 传递给您的 cudaMalloc 例程。这不是你想要的。
  • gpu_i 指针需要是可以由您的 cudaMalloc 例程修改的东西,因此我们需要将它的地址作为指针传递给该例程。
  • 您在 copy_to_cpu 例程中颠倒了参数。

如果以下代码对您不起作用,请添加 proper cuda error checking .您的系统配置也可能存在问题:

#include <iostream>

__global__ void add_one(int* i)
{
i[0]++;
}

template<class TYPE>
void gpu_load(TYPE* &data)
{
int size = 1;
cudaMalloc( (void**) &data, size * sizeof(TYPE));
}

template<class TYPE>
void copy_to_gpu(TYPE* cpu_var, TYPE* gpu_var)
{
int size = 1;
cudaMemcpy( gpu_var, cpu_var, size * sizeof(TYPE), cudaMemcpyHostToDevice);
}

template<class TYPE>
void copy_to_cpu(TYPE* cpu_var, TYPE* gpu_var)
{
int size = 1;
cudaMemcpy( cpu_var, gpu_var, size * sizeof(TYPE), cudaMemcpyDeviceToHost);
}

int main()
{
int *gpu_i;
int cpu_i[1];

cpu_i[0] = 5;

gpu_load(gpu_i);
copy_to_gpu(cpu_i, gpu_i);

add_one<<<1, 1>>>(gpu_i);

int res[1];

copy_to_cpu(res, gpu_i);

std::cout << res[0];
}

关于c++ - nVidia CUDA 代码不起作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20435260/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com