gpt4 book ai didi

c++ - 使用 Opencl 有效地找到大数组的最小值

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:44:11 26 4
gpt4 key购买 nike

我正在致力于在 opencl 中实现层次聚类算法。对于每一步,我都在一个非常大的数组(大约 10^8 个条目)中找到最小值,这样我就知道必须将哪些元素组合到一个新的簇中。最小值的识别必须进行9999次。使用我当前的内核,找到最小值(在所有迭代中累积)大约需要 200 秒。我解决这个问题的方法是将数组分成 2560 个大小相同的片段(我的 Radeon 7970 上有 2560 个流处理器)并分别找到每个片段的最小值。我运行第二个内核,将这些最小值组合成全局最小值。

有没有更有效的方法来解决这个问题?最初的想法是通过使用 OpenCL 来加速 HCA,但是识别最小值所花费的时间比 CPU 上的 matlab HCA 长得多。我做错了什么?

__kernel void findMinValue(__global float * myArray, __global double * mins, __global int * elementsToWorkOn, __global int * arraysize){
int gid = get_global_id(0);
int minloc = 0;
float mymin = INFINITY;
int eltoWorkOn = *elementsToWorkOn;
int offset = gid*eltoWorkOn;
int target = offset + eltoWorkOn;

if (offset<*arraysize){
//make sure the array size is not exceeded
if (target > *arraysize){
target = *arraysize;
}

//find minimum for the kernel
for (int i = offset; i < target; i++){
if (*(myArray + i) < mymin){
mymin = *(myArray + i);
minloc = i;
}
}
}
*(mins + gid * 2) = minloc;
*(mins + gid * 2 + 1) = mymin;
}


__kernel void getGlobalMin(__global double * mins, __global double * gmin, __global int * pixelsInImage){
int nWorkitems = 2560;
float globalMin = INFINITY;
double globalMinLoc;
float tempMin;
for (int i = 0; i < nWorkitems; i++){
tempMin = *(mins + 2 * i + 1);
if (tempMin < globalMin){
globalMin = tempMin;
globalMinLoc = *(mins + 2 * i);
}
}
*(gmin + 0) = globalMinLoc;
*(gmin + 1) = globalMin;
}

更新

我根据您的建议重新设计了 findMinValue 内核。内存访问现在是合并的,我将工作分成工作组,这样我就可以减少全局内存访问量。之前,每个内核都将其最小值写入全局 mins 缓冲区。现在每个座狼组只有一个内核写入一个值(即组最小值)。此外,我增加了全局工作大小以隐藏内存延迟。

这些更改可以将识别最小值所需的时间从 >200 秒减少到仅 59 秒!非常感谢您的帮助!

优化内核时还有什么我可能遗漏的吗?你有什么进一步的建议吗?我不知道如何使用 setArg()。我是否必须将指向 int 值的指针传递给它(如下所示:err = clSetKernelArg(kernel[2], 3, sizeof(int), &variable);)。在这种情况下,内核声明看起来如何?

这是我的新内核:

__kernel void findMinValue(__global float * myArray, __global double * mins, __global int * arraysize,__global int * elToWorkOn,__global int * dummy){
int gid = get_global_id(0);
int lid = get_local_id(0);
int groupID = get_group_id(0);
int lsize = get_local_size(0);
int gsize = get_global_id(0);
int minloc = 0;
int arrSize = *arraysize;
int elPerGroup = *elToWorkOn;
float mymin = INFINITY;


__local float lmins[128];
//initialize local memory
*(lmins + lid) = INFINITY;
__local int lminlocs[128];

//this private value will reduce global memory access in the for loop (temp = *(myArray + i);)
float temp;

//ofset and target of the for loop
int offset = elPerGroup*groupID + lid;
int target = elPerGroup*(groupID + 1);

//prevent that target<arrsize (may happen due to rounding errors or arrSize not a multiple of elPerGroup
target = min(arrSize, target);

//find minimum for the kernel
//offset is different for each lid, leading to sequential memory access
if (offset < arrSize){
for (int i = offset; i < target; i += lsize){
temp = *(myArray + i);
if (temp < mymin){
mymin = temp;
minloc = i;
}
}

//store kernel minimum in local memory
*(lminlocs + lid) = minloc;
*(lmins + lid) = mymin;

//find work group minimum (reduce global memory accesses)
lsize = lsize >> 1;
while (lsize > 0){
if (lid < lsize){
if (*(lmins + lid)> *(lmins + lid + lsize)){
*(lmins + lid) = *(lmins + lid + lsize);
*(lminlocs + lid) = *(lminlocs + lid + lsize);
}
}
lsize = lsize >> 1;
}
}
//write group minimum to global buffer
if (lid == 0){
*(mins + groupID * 2 + 0) = *(lminlocs + 0);
*(mins + groupID * 2 + 1) = *(lmins + 0);
}
}

最佳答案

如果每个工作项都遍历全局数组,则读取合并为零。如果你改变它,让每个工作项目都按扭曲或波前尺寸跨步,那么你将获得巨大的速度增益。

关于c++ - 使用 Opencl 有效地找到大数组的最小值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24267280/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com