gpt4 book ai didi

c++ - 尽管没有错误,openCL内核仍返回垃圾值

转载 作者:行者123 更新时间:2023-12-02 10:15:30 25 4
gpt4 key购买 nike

我一直在关注these openCL示例。即使使用cl_int err或从内核检查错误代码,OpenCL也不给我任何错误。但是,当我输出landmap_flags[i]的结果时,它表明我只是从GPU返回垃圾值。我可以使上面的示例起作用,但是当我包含数据时,它开始崩溃。我也不确定landmap_flags数组是否太大,内核无法处理? (96 * 96 * 96uchar元素)。

内核代码:

// CL noise lib
.
.
.
kernel void terrain_gen(global uchar* landmap_flags, global float3* pos, int LOD, int chunkSize) {
const uint n = get_global_id(0);
const uint x = n%(chunkSize+(2 * LOD));
const uint y = (n/(chunkSize+(2 * LOD)))%(chunkSize+(2 * LOD));
const uint z = n/((chunkSize+(2 * LOD))*(chunkSize+(2 * LOD)));
enum BLOCK { STONE, DIRT, SNOW, GRASS, SAND, GRAVEL, GAETAN, BEDROCK, AIR };
const float frequency = 500;
const float noise_1 = (_slang_library_noise2(x+(chunkSize * pos[n].x),z+(chunkSize * pos[n].z))) / frequency;
landmap_flags[n] = (noise_1*noise_1*40.0f+6.0f>(y+(chunkSize * pos[n].y))) ? DIRT : AIR;
}

内核构建良好,没有返回任何错误,但我认为我在处理数据方面可能会出错。

还有我用于设置缓冲区的代码:
// set up devices, platform, etc.
.
.
.
cl::Buffer buffer_landmap(context, CL_MEM_READ_WRITE, sizeof(cl_uchar) * 96 * 96 * 96);
cl::Buffer buffer_pos(context, CL_MEM_WRITE_ONLY | CL_MEM_HOST_NO_ACCESS | CL_MEM_COPY_HOST_PTR, sizeof(cl_float3));
cl::Buffer buffer_LOD(context, CL_MEM_WRITE_ONLY | CL_MEM_HOST_NO_ACCESS | CL_MEM_COPY_HOST_PTR, sizeof(cl_int));
cl::Buffer buffer_chunkSize(context, CL_MEM_WRITE_ONLY | CL_MEM_HOST_NO_ACCESS | CL_MEM_COPY_HOST_PTR, sizeof(cl_int));

queue.enqueueWriteBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);
queue.enqueueWriteBuffer(buffer_pos, CL_TRUE, 0, sizeof(cl_float3), pos);
queue.enqueueWriteBuffer(buffer_LOD, CL_TRUE, 0, sizeof(cl_int), LOD);
queue.enqueueWriteBuffer(buffer_chunkSize, CL_TRUE, 0, sizeof(cl_int), chunkSize);

cl::Kernel get_noise(program, "terrain_gen");
get_noise.setArg(0, buffer_landmap);
get_noise.setArg(1, buffer_pos);
get_noise.setArg(2, buffer_LOD);
get_noise.setArg(3, buffer_chunkSize);

queue.enqueueNDRangeKernel(get_noise, cl::NullRange, cl::NDRange(1024));

queue.enqueueReadBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);

queue.finish();

我打算让此代码工作的方式是传递三个缓冲区( posLODchunkSize)作为标量值,并且只需要将 landmap_flags返回给CPU。可能是我对 enqueueNDRangeKernel使用了不正确的参数吗?一种可能是我的工作组太大,或者我的工作组太多。

编辑:我编辑了我的代码,不再将标量作为缓冲区传递,唯一要写入和读取的是landmap_flags,为此已对内核进行了编辑,也将pos视为标量值。
        kernel void terrain_gen(global uchar* landmap_flags, float3 pos, int LOD, int chunkSize) {
const uint n = get_global_id(0);
const uint x = n%(chunkSize+(2 * LOD));
const uint y = (n/(chunkSize+(2 * LOD)))%(chunkSize+(2 * LOD));
const uint z = n/((chunkSize+(2 * LOD))*(chunkSize+(2 * LOD)));
enum BLOCK { STONE, DIRT, SNOW, GRASS, SAND, GRAVEL, GAETAN, BEDROCK, AIR };
const float frequency = 500;
const float noise_1 = (_slang_library_noise2(x+(chunkSize * pos.x),z+(chunkSize * pos.z))) / frequency;
landmap_flags[n] = (noise_1*noise_1*40.0f+6.0f>(y+(chunkSize * pos.y))) ? DIRT : AIR;
}
    cl::Buffer buffer_landmap(context, CL_MEM_READ_WRITE, sizeof(cl_uchar) * 96 * 96 * 96);
cl::CommandQueue queue(context, default_device);
queue.enqueueWriteBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);


cl::Kernel get_noise(program, "terrain_gen");
get_noise.setArg(0, buffer_landmap);
get_noise.setArg(1, pos);
get_noise.setArg(2, LOD);
get_noise.setArg(3, chunkSize);

queue.enqueueNDRangeKernel(get_noise, cl::NullRange, cl::NDRange(96 * 96 * 96));

queue.enqueueReadBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);

queue.finish();

最佳答案

@doqtor在评论中的发现很明显,这些是非常的严重问题。

此外,我注意到以下内容:

  • 您的pos缓冲区是使用CL_MEM_HOST_NO_ACCESS创建的,但是随后您对其调用了enqueueWriteBuffer()。 (尽管根据您的问题的文本,您实际上希望它是一个标量,而不是一个缓冲区?然后您的内核代码将其视为注释中指出的长 vector …)
  • 您正在使用CL_MEM_COPY_HOST_PTR创建缓冲区而不传递主机指针。
  • 您似乎正在提交1024个项目的工作量,但是结果缓冲区是96 * 96 * 96 = 884736个项目,这也是从缓冲区读取的数据量。 (此缓冲区的大小很好,您不应使它接近VRAM的大小。)

  • 而且,你说

    OpenCL isn't giving me any errors even when checking error codes with cl_int err, or from the kernel.



    鉴于创建缓冲区时标志的滥用,这似乎……不太可能?由于上面的问题2,您创建的四个缓冲区中的三个应使用 CL_​INVALID_​HOST_​PTR失败。我建议您再看一下错误处理代码。 (您尚未发布,因此我无法评论具体内容)

    关于c++ - 尽管没有错误,openCL内核仍返回垃圾值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62122112/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com