gpt4 book ai didi

memory - 如何访问内核中的常量内存?

转载 作者:行者123 更新时间:2023-12-02 06:06:34 25 4
gpt4 key购买 nike

我无法访问常驻内存中的数据,我也不知道为什么。这是我的代码片段:

#define N 10
__constant__ int constBuf_d[N];

__global__ void foo( int *results, int *constBuf )
{
int tdx = threadIdx.x;
int idx = blockIdx.x * blockDim.x + tdx;

if( idx < N )
{
results[idx] = constBuf[idx];
}
}

// main routine that executes on the host
int main(int argc, char* argv[])
{
int *results_h = new int[N];
int *results_d = NULL;

cudaMalloc((void **)&results_d, N*sizeof(int));

int arr[10] = { 16, 2, 77, 40, 12, 3, 5, 3, 6, 6 };

int *cpnt;
cudaError_t err = cudaGetSymbolAddress((void **)&cpnt, "constBuf_d");

if( err )
cout << "error!";

cudaMemcpyToSymbol((void**)&cpnt, arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

foo <<< 1, 256 >>> ( results_d, cpnt );

cudaMemcpy(results_h, results_d, N*sizeof(int), cudaMemcpyDeviceToHost);

for( int i=0; i < N; ++i )
printf("%i ", results_h[i] );
}

出于某种原因,我在 results_h 中只得到“0”。我正在使用功能为 1.1 的卡运行 CUDA 4.0。

有什么想法吗?谢谢!

最佳答案

如果您在代码中添加适当的错误检查,您会发现 cudaMemcpyToSymbol 因设备符号无效错误而失败。您要么需要按名称传递符号,要么改用 cudaMemcpy。所以这个:

cudaGetSymbolAddress((void **)&cpnt, "constBuf_d");
cudaMemcpy(cpnt, arr, N*sizeof(int), cudaMemcpyHostToDevice);

cudaMemcpyToSymbol("constBuf_d", arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

cudaMemcpyToSymbol(constBuf_d, arr, N*sizeof(int), 0, cudaMemcpyHostToDevice);

会起作用。话虽如此,将常量内存地址作为参数传递给内核是使用常量内存的错误方法 - 它会阻止编译器生成指令以通过常量内存缓存访问内存。比较为您的内核生成的 1.2 PTX 计算能力:

    .entry _Z3fooPiS_ (
.param .u32 __cudaparm__Z3fooPiS__results,
.param .u32 __cudaparm__Z3fooPiS__constBuf)
{
.reg .u16 %rh<4>;
.reg .u32 %r<12>;
.reg .pred %p<3>;
.loc 16 7 0
$LDWbegin__Z3fooPiS_:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.s32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
mov.u32 %r4, 9;
setp.gt.s32 %p1, %r3, %r4;
@%p1 bra $Lt_0_1026;
.loc 16 14 0
mul.lo.u32 %r5, %r3, 4;
ld.param.u32 %r6, [__cudaparm__Z3fooPiS__constBuf];
add.u32 %r7, %r6, %r5;
ld.global.s32 %r8, [%r7+0];
ld.param.u32 %r9, [__cudaparm__Z3fooPiS__results];
add.u32 %r10, %r9, %r5;
st.global.s32 [%r10+0], %r8;
$Lt_0_1026:
.loc 16 16 0
exit;
$LDWend__Z3fooPiS_:
} // _Z3fooPiS_

使用这个内核:

__global__ void foo2( int *results )
{
int tdx = threadIdx.x;
int idx = blockIdx.x * blockDim.x + tdx;

if( idx < N )
{
results[idx] = constBuf_d[idx];
}
}

产生

    .entry _Z4foo2Pi (
.param .u32 __cudaparm__Z4foo2Pi_results)
{
.reg .u16 %rh<4>;
.reg .u32 %r<12>;
.reg .pred %p<3>;
.loc 16 18 0
$LDWbegin__Z4foo2Pi:
mov.u16 %rh1, %ctaid.x;
mov.u16 %rh2, %ntid.x;
mul.wide.u16 %r1, %rh1, %rh2;
cvt.s32.u16 %r2, %tid.x;
add.u32 %r3, %r2, %r1;
mov.u32 %r4, 9;
setp.gt.s32 %p1, %r3, %r4;
@%p1 bra $Lt_1_1026;
.loc 16 25 0
mul.lo.u32 %r5, %r3, 4;
mov.u32 %r6, constBuf_d;
add.u32 %r7, %r5, %r6;
ld.const.s32 %r8, [%r7+0];
ld.param.u32 %r9, [__cudaparm__Z4foo2Pi_results];
add.u32 %r10, %r9, %r5;
st.global.s32 [%r10+0], %r8;
$Lt_1_1026:
.loc 16 27 0
exit;
$LDWend__Z4foo2Pi:
} // _Z4foo2Pi

请注意,在第二种情况下,constBuf_d 是通过 ld.const.s32 而不是 ld.global.s32 访问的,所以使用该常量内存缓存。

关于memory - 如何访问内核中的常量内存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8773503/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com