gpt4 book ai didi

c++ - OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时出现段错误

转载 作者:塔克拉玛干 更新时间:2023-11-03 07:44:42 25 4
gpt4 key购买 nike

我创建了核函数,计算一定范围内的积分并将结果添加到变量(每个 GPU 一个变量),在主机中我将它们全部相加,得到积分(在本例中为 x^2dx)和范围的结果0-8 我的结果是 170,666... 这是真的。我使用的全局工作大小为 1、2、4、8、16、32,它对所有工作大小都有效,但由于某种原因,当我将 GWS 更改为 64 时,我遇到了段错误。我有 1 个平台(包含 8 个 GPU 卡)每个设备都有自己的队列、上下文、内核。

以下是我的代码中的几行:

我创建了 3 个缓冲区,稍后将其传递给内核(第三个缓冲区用于读取结果)。

cl_mem bufferA[deviceNumber];
cl_mem bufferB[deviceNumber];
cl_mem bufferC[deviceNumber];
for(int i = 0; i< deviceNumber; i++){
bufferA[i] = clCreateBuffer(context[i], CL_MEM_READ_WRITE , sizeof(float) * global_size, NULL, &error);
bufferB[i] = clCreateBuffer(context[i], CL_MEM_READ_ONLY , sizeof(float) * global_size, NULL, &error);
bufferC[i] = clCreateBuffer(context[i], CL_MEM_WRITE_ONLY, sizeof(float) * global_size, NULL, &error);
}

稍后在创建和构建程序后我设置了内核参数。

    for(int i = 0; i< deviceNumber; i++){
error = clSetKernelArg(kernel[i], 0, sizeof(cl_mem), (void*)&bufferA[i]);
error = clSetKernelArg(kernel[i], 1, sizeof(cl_mem), (void*)&bufferB[i]);
error = clSetKernelArg(kernel[i], 2, sizeof(cl_mem), (void*)&bufferC[i]);
error = clSetKernelArg(kernel[i], 3, sizeof(cl_int), (void*)&global_size);
}

并入列 writeBuffers

for(int i = 0; i< deviceNumber; i++){
error = clEnqueueWriteBuffer(commandQueue[i], bufferA[i], CL_FALSE, 0, sizeof(float) * global_size, a, 0, NULL, NULL);
error = clEnqueueWriteBuffer(commandQueue[i], bufferB[i], CL_FALSE, 0, sizeof(float) * global_size, &b[i], 0, NULL, NULL);
}

排队内核来完成它们的工作。

for(int i = 0; i< deviceNumber; i++){
error = clEnqueueNDRangeKernel(commandQueue[i], kernel[i], 1, NULL, &global_size, &localWorkSize, 0, NULL, NULL);
}

最后是发生段错误的地方:

for(int i = 0; i< deviceNumber; i++){
std::cout<<"clEnqueueReadBuffer: "<<error<<std::endl;
error = clEnqueueReadBuffer(commandQueue[i], bufferC[i], CL_TRUE, 0, sizeof(float) * global_size, &c[i], 0, NULL, NULL);
}

我到处都在打印错误代码,而且都是 0我在输出中看到的最后一件事是 clEnqueueReadBuffer 之前的字符串,因此它在 for 循环的第一次迭代中崩溃。

有人知道我在这里错过了什么吗?

最佳答案

找到错误了!

sizeof(float) * global_size

读取大小等于 global_size 的 vector 是可以的,但是在将代码重铸为积分后我完全忘记了这一点,如果您为每个设备读取一个变量,您只需要 sizeof(type) 即可。希望它能帮助别人

关于c++ - OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时出现段错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41347045/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com