c++ - 将并行程序从 openMP 转换为 openCL

转载作者：太空狗更新时间：2023-10-29 21:39:58

25

4

我只是想知道如何将下面的 openMP 程序转换为 openCL 程序。

使用 openMP 实现的算法的并行部分如下所示:

#pragma omp parallel
  {
    int thread_id = omp_get_thread_num();

    //double mt_probThreshold = mt_nProbThreshold_;
    double mt_probThreshold = nProbThreshold;

    int mt_nMaxCandidate = mt_nMaxCandidate_;
    double mt_nMinProb = mt_nMinProb_;

    int has_next = 1;
    std::list<ScrBox3d> mt_detected;
    ScrBox3d  sample;
    while(has_next) {
#pragma omp critical
    {  // '{' is very important and define the block of code that needs lock.
      // Don't remove this pair of '{' and '}'.
      if(piter_ == box_.end()) {
        has_next = 0;
      } else{
        sample = *piter_;
        ++piter_;
      }
    }  // '}' is very important and define the block of code that needs lock.

    if(has_next){
      this->SetSample(&sample, thread_id);
      //UpdateSample(sample, thread_id); // May be necesssary for more sophisticated features
      sample._prob = (float)this->Prob( true, thread_id, mt_probThreshold);
      //sample._prob = (float)_clf->LogLikelihood( thread_id);
      InsertCandidate( mt_detected, sample, mt_probThreshold, mt_nMaxCandidate, mt_nMinProb );
    }
  }

#pragma omp critical
  {  // '{' is very important and define the block of code that needs lock.
    // Don't remove this pair of '{' and '}'.
    if(mt_detected_.size()==0) {
      mt_detected_    = mt_detected;
      //mt_nProbThreshold_  = mt_probThreshold;
      nProbThreshold = mt_probThreshold;
    } else {
      for(std::list<ScrBox3d>::iterator it = mt_detected.begin(); 
          it!=mt_detected.end(); ++it)
        InsertCandidate( mt_detected_, *it, /*mt_nProbThreshold_*/nProbThreshold, 
        mt_nMaxCandidate_, mt_nMinProb_ );
      }
    }  // '}' is very important and define the block of code that needs lock.
  }//parallel section end

我的问题是:这部分可以用openCL实现吗？我遵循了一系列 openCL 教程，并且了解了工作方式，我在 .cu 文件中编写代码，(我之前安装了 CUDA 工具包)但是在这种情况下情况更复杂，因为使用了很多使用了头文件、模板类和面向对象编程。

如何将在 openMP 中实现的这个部分转换为 openCL？我应该创建一个新的 .cu 文件吗？

任何建议都会有所帮助。提前致谢。

编辑:

使用 VS 探查器我注意到大部分执行时间花在了 InsertCandidate() 函数上，我正在考虑编写一个内核来在 GPU 上执行这个函数。此函数最昂贵的操作是 for 指令。但是可以看出，每个for循环包含3条if指令，这会导致发散，导致序列化，即使在GPU上执行也是如此。

for( iter = detected.begin(); iter != detected.end(); iter++ )
    {
        if( nCandidate == nMaxCandidate-1 )
            nProbThreshold = iter->_prob;

        if( box._prob >= iter->_prob )
            break;
        if( nCandidate >= nMaxCandidate && box._prob <= nMinProb )
            break;
        nCandidate ++;
    }

作为结论，这个程序可以转换为openCL吗？

最佳答案

也许可以将您的示例代码转换为 opencl，但我发现这样做有几个问题。

一开始似乎并没有太多的并行执行。更多的 worker 可能根本无济于事。
在执行期间向进程添加工作是 opencl 中的一个相当新的功能。您将不得不使用 opencl 2.0，或者提前知道将添加多少工作，并预先分配内存来存储新的数据结构。对 InsertCandidate 的调用可能是“不能”转换为 opencl 的部分。

如果函数足够大，您可以将调用移植到 this->Prob(...)。您需要能够通过将参数存储在合适的数据结构中来缓存一堆调用。 “一堆”是指至少数百个，但最好是数千个或更多。同样，只有当 this->Prob() 对于所有调用都是恒定的，并且足够复杂以值得往返 opencl 设备并返回时，这才是值得的。

关于c++ - 将并行程序从 openMP 转换为 openCL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31741507/

25

4

0

文章推荐： c++ - 通过隐式类型转换模拟接口(interface)

文章推荐： c++ - 排序多维数组并保持索引 C++

文章推荐： c# - 当提供的字符串不为空时，string.IsNullOrEmpty 返回 true

openmp - OpenMP 中的高斯消除
OpenMP 中的高斯消除。我是 openmp 的新手，想知道我是否在正确的地方使用了我的编译指示和屏障。我的 x 值每次都不同。他们应该是一样的吗？？ #include int num; doub
openmp - OpenMP 和矢量化之间的比较
给定一个示例函数(示例在下面给出)，for 循环可以使用 OpenMP 并行化或使用矢量化进行矢量化(假设编译器执行矢量化)。示例 void function(float* a, float* b,
openmp - OpenMP 中的原子性和关键性有什么区别？
OpenMP 中原子和关键之间有什么区别？我能做到 #pragma omp atomic g_qCount++; 但这和不一样吗 #pragma omp critical g_qCount++; ？
openmp - 给定依赖图生成 OpenMP 代码
我有一个关于如何在您考虑特定依赖关系图时生成 OpenMP 伪代码的问题。所以假设我们有这个特定的图表: 解决方案可能是这样的: #pragma omp parallel {
openmp - 使用 OpenMP 进行缩减
我正在尝试使用 openmp 计算二维矩阵的平均值。这个二维矩阵实际上是一个图像。我正在对数据进行线程分割。例如，如果我有 N线程比我处理行/N thread0 的行数，等等。我的问题是:我可以
openmp - 如何统计测量程序中的 OpenMP 性能？
我想统计测量与 OpenMP 并行化的程序的性能。我选择在执行并行算法的测试应用程序中编写循环 MAX_EXPERIMENTS次并将时间测量报告到文件中。问题解决方案似乎比提取外部循环上方的并行编译
openmp - OpenMP 中的循环顺序折叠性能建议
我找到了 Intel's performance suggestion on Xeon Phi关于 OpenMP 中的 Collapse 子句。 #pragma omp parallel for co
openmp - 如何使用 OpenMP 并行化数组移位？
如何使用 OpenMP 并行化数组移位？我尝试了一些方法，但在以下示例中没有得到任何准确的结果(该示例旋转 Carteira 对象数组的元素，用于排列算法): void rotaciona(int
openmp - 使用 openmp 并行执行函数
我有一系列对几个独立函数的调用。 func1(arg); func2(arg); func3(arg); 我想并行执行它们，而不是串行执行它们。我目前正在使用 #pragma omp parallel
openmp - openmp 中的 Dependent 子句不尊重声明的依赖
我正在尝试使用 openmp 任务来安排基本 jacobi2d 计算的平铺执行。在 jacobi2d 中，依赖于 A(i,j) 从 A(i, j) A(i-1, j) A(i+1, j) A(i, j
openmp - 在 OpenMP 中，如何让每个内核运行一个线程？
我在 3 天前开始使用 OpenMP。我想知道如何使用#pragma使每个内核运行一个线程。详细信息:- int ncores = omp_get_num_procs();for(i = 0; i <
openmp - OpenMP 中的 Schedule 子句
我有一段代码(它是应用程序的一部分)，我正在尝试使用 OpenMP 对其进行优化，正在尝试各种调度策略。就我而言，我注意到 schedule(RUNTIME)条款比其他条款有优势(我没有指定 chun
openmp - OpenMP 或 MPI 哪个更容易学习和调试？
我有一个数字运算 C/C++ 应用程序。它基本上是不同数据集的主循环。我们可以使用 openmp 和 mpi 访问一个 100 节点的集群。我想加速应用程序，但我是 mpi 和 openmp 的绝对新
openmp - OpenMP 分发中的 SECTIONS 指令如何工作？
在 OpenMP 中使用ompsections时，线程会被分配到sections内的 block ，还是每个线程会被分配到每个section？当nthreads == 3时: #pragma omp
openmp - cython openmp 单，屏障
我正在尝试在 cython 中使用 openmp。我需要在 cython 中做两件事: i) 在我的 cython 代码中使用 #pragma omp single{} 作用域。 ii) 使用#pra
openmp - 为什么 OpenMP 不能在 for 循环内有部分？
我正在尝试通过将循环的每次迭代作为 OpenMP 部分来并行化 OpenMP 中基于范围的 for 循环。我想这样做: #pragma omp parallel sections { for ( au
openmp - cython openmp 单，屏障
我正在尝试在 cython 中使用 openmp。我需要在 cython 中做两件事: i) 在我的 cython 代码中使用 #pragma omp single{} 作用域。 ii) 使用#pra
openmp - 将并行程序转换为集群程序。从 OpenMP 到？
我想编写一个代码转换器，它采用基于 OpenMP 的并行程序并在集群上运行它。我该如何解决这个问题？我使用哪些库？如何为此设置小型集群？我发现很难在 Internet 上找到有关集群计算的好 Ma
c++ - OpenMP - OpenMP 'for' 语句中的索引变量必须具有带符号的整数类型
我是 OpenMP 的新手。我正在尝试为 for 循环使用多个内核，但出现此编译错误: “错误 C3016:'x':OpenMP 'for' 语句中的索引变量必须具有带符号的整数类型”。我知道 Op
openmp - 使用 Qt creator 时如何开启 OpenMP
如果我使用 VS 2010 编译器从 Qt Creator 构建项目，我如何启用 OpenMP(从 Visual Studio 构建时，您只需启用该功能)谢谢最佳答案在 .pro 文件中尝试下一步

首页

博学

6Ren·AI

商城

c++ - 将并行程序从 openMP 转换为 openCL

编辑: