gpt4 book ai didi

c++ - Opencl:确定最佳的 local_item_size

转载 作者:行者123 更新时间:2023-11-28 06:14:33 25 4
gpt4 key购买 nike

我的代码就像二维矩阵乘法 ( http://gpgpu-computing4.blogspot.de/2009/09/matrix-multiplication-2-opencl.html )。矩阵的维度为(1000*1000 和 10000*10000 和 100000*100000)。

我的硬件是:NVIDIA Corporation GM204 [GeForce GTX 980](MAX_WORK_GROUP_SIZES:1024 1024 64)。

问题是:

我可以使用的最佳 local_item_size 是多少?

size_t local_item_size[2], global_item_size[2];
global_item_size[0] = number_of_points;
global_item_size[1] = number_of_points;
local_item_size[0] = 10;
local_item_size[1] = 10;

提前致谢

最佳答案

在 nvidia 卡上,您应该使用 32 的倍数作为工作组中的总线程数(因此 8*8 应该没问题)。全局工作大小必须是每个维度中本地工作大小的倍数,因此也必须对其进行修改。

这可能也需要对内核代码进行一些修改,以处理超出范围的值(工作项可能比数据多)。

请注意,如果您未指定本地工作组大小(例如,将 null 传递给它),驱动程序将自动选择它。不能保证它会选择最佳尺寸,但值得一试。

关于c++ - Opencl:确定最佳的 local_item_size,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30593848/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com