gpt4 book ai didi

CUDA 设备运行时 api cudaMemsetAsync 不起作用

转载 作者:行者123 更新时间:2023-12-04 12:17:13 32 4
gpt4 key购买 nike

我想调用cudaMemsetAsync来自内核(所谓的“动态并行”)。但无论我使用什么值,它总是将内存设置为 0。

这是我的测试代码:

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include "cuda_device_runtime_api.h"
#include <stdio.h>

const int size = 5;

__global__ void kernel(int *c)
{
cudaMemsetAsync(c, 0x7FFFFFFF, size * 4, NULL);
}

int main()
{
cudaError_t cudaStatus;
int c[size] = { 12, 12, 12, 12, 12 };
int *dev_c = 0;

cudaStatus = cudaSetDevice(0);
cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));
cudaStatus = cudaMemcpy(dev_c, c, size * sizeof(int), cudaMemcpyHostToDevice);
kernel <<< 1, 1 >>>(dev_c);
cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);
cudaFree(dev_c);
cudaStatus = cudaDeviceReset();

printf("%d\n", cudaStatus);
printf("{%d,%d,%d,%d,%d}\n", c[0], c[1], c[2], c[3], c[4]);
return 0;
}

如果我运行它,我会得到如下输出:
>nvcc -run kernel.cu -gencode=arch=compute_35,code=\"sm_35,compute_35\" -rdc=true -lcudadevrt
kernel.cu
Creating library a.lib and object a.exp
0
{0,0,0,0,0}

当我调用内存集时,我使用值 0x7FFFFFFF .我期待非零数字,但它总是显示为零。

这是一个错误吗?还是我做错了什么?我正在使用 CUDA 8.0

最佳答案

我可以确认这似乎不适用于我测试过的系统上的 CUDA 8。

如果要单线程执行操作,可以使用memset直接在设备代码中(它,像 memcpy ,一直被支持)。内核将在内核中发出一个字节大小的内联循环,并且该操作将由每个正在运行的线程处理。

如果您想要动态并行风格的 memset 操作,那么最简单的事情就是自己制作。您发布的代码中的一个微不足道的(并且非常非常轻松地测试过)的实现可能如下所示:

#include <cstring>
#include <cstdio>

const int size = 5;

__global__ void myMemset_kernel(void* p, unsigned char val, size_t sz)
{
size_t tid = threadIdx.x + blockDim.x * blockIdx.x;
unsigned char* _p = (unsigned char*)p;
for(; tid < sz; tid += blockDim.x * gridDim.x) {
_p[tid] = val;
}
}

__device__ void myMemset(void* p, unsigned int val, size_t sz, cudaStream_t s=NULL)
{
const dim3 blocksz(256,1,1);
size_t nblocks = (sz + blocksz.x -1) / blocksz.x;

unsigned charval = val & 0xff;
myMemset_kernel<<< dim3(nblocks,1,1), blocksz, 0, s >>>(p, charval, sz);
}

__global__ void kernel(int *c)
{
cudaStream_t s;
cudaStreamCreateWithFlags(&s, cudaStreamNonBlocking);
myMemset(c, 0x7FFFFFFF, size * 4, s);
cudaDeviceSynchronize();
}

int main()
{
int c[size];
int *dev_c;

memset(&c[0], 0xffffff0c, size * sizeof(int));
printf("{%08x,%08x,%08x,%08x,%08x}\n", c[0], c[1], c[2], c[3], c[4]);

cudaMalloc((void**)&dev_c, size * sizeof(int));
cudaMemcpy(dev_c, c, size * sizeof(int), cudaMemcpyHostToDevice);
kernel <<< 1, 1 >>>(dev_c);
cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);
cudaFree(dev_c);

printf("{%08x,%08x,%08x,%08x,%08x}\n", c[0], c[1], c[2], c[3], c[4]);
return 0;
}

编译并执行此操作:
$ nvcc -rdc=true -arch=sm_52 -o memset memset.cu -lcudadevrt
$ ./memset
{0c0c0c0c,0c0c0c0c,0c0c0c0c,0c0c0c0c,0c0c0c0c}
{ffffffff,ffffffff,ffffffff,ffffffff,ffffffff}

最后一点——注意上面的值并阅读 this question and answer .在您的代码中,无法使用 cudaMemset应用 0x7FFFFFFF 的值。尽管 value 参数是一个无符号整数, cudaMemset和它的亲戚像普通人一样工作 memset并设置字节值。只有 32 位参数的最低有效字节用于设置值。如果您的目标是设置 32 位值,那么无论如何您都需要为此目的制作自己的 memset 版本。

关于CUDA 设备运行时 api cudaMemsetAsync 不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44028409/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com