我是 OpenCL 领域的新手,我想增加我对它的了解。
我试图找到有关如何使用 OpenCL 构建“复杂函数”的信息。对于“复杂函数”,我的意思是可以并行化的函数,并且内部也有一个可以并行化的函数。我看过如下链接:
现在,我来回答我的问题,我将使用一个例子:
// A and B are int vectors
// The value of M and N are different!! M != N
for(int i=0; i<=M-2;i++){
for(int j=i+1;j<=M-1;j++){
distance=calculate_distance(A[i],B[j]);
//more sequential instructions
}
}
并且 calculate_distance 连接两个 vector 并有一个循环:
for(int i=0; i<=N-1;i++)
// Some sequential instructions
这个完整的代码片段可以并行化吗?在那种情况下如何(这是内核内部的tittle kernel的原因)?
注意: 我正在使用面向 OpenCL 的英特尔(R) SDK - 离线编译器 2012 (Windows) 检查我的内核。
提前致谢
为了编写并行代码,您需要更多地关注数据流。您的输入数据是什么样的?您的输出数据是什么样的?如何将一段输入数据转换为输出数据?
关于您的问题:
- 无法确定您提供的示例是否可并行化,因为数据流不明显。
- 您可以从内核代码中调用函数,它们将被内联到内核中。
提示:
同时检查 Converting C/C++ for loops into CUDA - 它是 CUDA 而不是 OpenCL,但原理相似。
如果您的输出数据只是单个值(例如最大距离),您可能需要查看缩减内核并了解它们的工作原理。
我是一名优秀的程序员,十分优秀!