c++ - OpenMP/C++ : Parallel for loop with reduction afterwards

c++ - OpenMP/C++ : Parallel for loop with reduction afterwards - best practice?

转载作者：行者123 更新时间：2023-11-30 05:41:56

25

4

给定以下代码...

for (size_t i = 0; i < clusters.size(); ++i)
{
    const std::set<int>& cluster = clusters[i];
    // ... expensive calculations ...
    for (int j : cluster)
        velocity[j] += f(j); 
}

...我想在多个 CPU/内核上运行。函数f不使用 velocity .

一个简单的#pragma omp parallel for在第一个 for 循环之前会产生不可预测的/错误的结果，因为 std::vector<T> velocity在内循环中修改。多个线程可以访问和(尝试)修改 velocity 的相同元素同时。

我认为第一个解决方案是写 #pragma omp atomic在 velocity[j] += f(j); 之前手术。这给了我一个编译错误(可能与类型为 Eigen::Vector3d 或 velocity 的元素是类成员有关)。此外，我读到原子操作非常慢与为每个线程设置一个私有(private)变量并在最后进行归约相比。这就是我想做的，我想。

我想出了这个:

#pragma omp parallel
{
    // these variables are local to each thread
    std::vector<Eigen::Vector3d> velocity_local(velocity.size());
    std::fill(velocity_local.begin(), velocity_local.end(), Eigen::Vector3d(0,0,0));

    #pragma omp for
    for (size_t i = 0; i < clusters.size(); ++i)
    {
        const std::set<int>& cluster = clusters[i];
        // ... expensive calculations ...
        for (int j : cluster)
            velocity_local[j] += f(j); // save results from the previous calculations
    } 

    // now each thread can save its results to the global variable
    #pragma omp critical
    {
        for (size_t i = 0; i < velocity_local.size(); ++i)
            velocity[i] += velocity_local[i];
    }
}

这是一个好的解决方案吗？它是最佳解决方案吗？ (它甚至正确吗？)

进一步思考:使用 reduce子句(而不是 critical 部分)会引发编译器错误。我认为这是因为 velocity是类(class)成员。

我试图找到一个有类似问题的问题，并且this问题看起来几乎一样。但我认为我的情况可能不同，因为最后一步包括 for环形。这是否是最佳方法的问题仍然存在。

编辑: 根据评论要求:reduction子句...

    #pragma omp parallel reduction(+:velocity)
    for (omp_int i = 0; i < velocity_local.size(); ++i)
        velocity[i] += velocity_local[i];

...抛出以下错误:

错误 C3028:“ShapeMatching::velocity”:在数据共享子句中只能使用变量或静态数据成员

(与 g++ 类似的错误)

最佳答案

您正在进行数组缩减。我已经多次描述过这个(例如 reducing an array in openmp 和 fill histograms array reduction in parallel with openmp without using a critical section )。您可以在有和没有关键部分的情况下执行此操作。

您已经在关键部分(在您最近的编辑中)正确地做到了这一点，所以让我描述一下如何在没有关键部分的情况下做到这一点。

std::vector<Eigen::Vector3d> velocitya;
#pragma omp parallel
{
    const int nthreads = omp_get_num_threads();
    const int ithread = omp_get_thread_num();
    const int vsize = velocity.size();

    #pragma omp single
    velocitya.resize(vsize*nthreads);
    std::fill(velocitya.begin()+vsize*ithread, velocitya.begin()+vsize*(ithread+1), 
              Eigen::Vector3d(0,0,0));

    #pragma omp for schedule(static)
    for (size_t i = 0; i < clusters.size(); i++) {
        const std::set<int>& cluster = clusters[i];
        // ... expensive calculations ...
        for (int j : cluster) velocitya[ithread*vsize+j] += f(j);
    } 

    #pragma omp for schedule(static)
    for(int i=0; i<vsize; i++) {
        for(int t=0; t<nthreads; t++) {
            velocity[i] += velocitya[vsize*t + i];
        }
    }
}

由于我没有做过的错误共享，此方法需要额外的注意/调整。

至于哪种方法更好，您将不得不进行测试。

关于c++ - OpenMP/C++ : Parallel for loop with reduction afterwards - best practice?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30943452/

25

4

0

文章推荐： C++ : How to use SAPI with QT Creator?

文章推荐： Javascript 日期时间问题

文章推荐： Java Commons-httpclient : Testing timeout values

文章推荐： javascript - 使用 jQuery 使动态元素可选择

c# - Microsoft.Practices.Composite 是 Microsoft.Practices.Prism 的早期版本吗？
在我的项目中，我使用了某种由外部团队编写的 SDK 库。这些图书馆正在使用 Prism。由于某些原因，我们不得不回滚到他们的 SDK 的以前版本，现在构建失败，试图找到对 Microsoft.Prac
unit-testing - 在 Microsoft.Practices.ServiceLocation.dll 中出现错误 'Microsoft.Practices.ServiceLocation.ActivationException'
我是基于 MVVM 的单元测试应用程序，它使用 prism 并使用模拟来测试 View 模型。我可以通过传递区域管理器和资源管理器的模拟对象来调用我的 viewmodel 类的构造函数，但是当控制进入
MySQL FK 语法 : insert column called practice into table cred_insurances that is FK to table practices
我需要将名为“practice”的列插入到表“cred_insurances”中，该表是一个 FK 引用表“practices” PK “id” 最佳答案您需要通过在 mysql 提示符下运行以下命
xcode - 如何修复错误 : pathspec 'git-practice-project/git-practice-project' did not match any file(s) known to git
我创建了一个项目来练习将 Git 与 Xcode 和 GitHub 结合使用。经过大量工作，我已经在本地和远程创建了存储库。我刚刚尝试提交并收到此错误: 这是我要 promise 的: 在出现此错误之
DTO : best practices
我正在考虑使用 DTO 而不是传递我的域对象。我在这里和其他地方都读过几篇文章，我知道有几种方法可以完成这项工作。如果我总共只有大约 10 个域类，并且考虑到我想在我的 View (WPF 前端)中
Django休息框架: Best practices?
我想知道 Django Rest Framework 的最佳实践。我一直通过每个用户使用不同的序列化程序(员工、帐户所有者、其他人)和 HTTP 方法来限制更改帐户上某些属性的访问权限，但我觉得这太不
Java属性: best practices?
场景:应用程序具有可以启用某些优化的算法。默认情况下，有些是打开的，有些是关闭的。在 Java 中是否有一种方便的方法来实现某种全局属性系统？要求: 必须很容易两次使用不同的设置运行程序的多个实例
Java抽象方法: is this bad practice?
我的代码如下: public static final Condition.ActionCondition ACTION_CONDITION_ACTIVATE = new Condit
复杂的状态转换 : best practices
我从事嵌入式工作，我有一些管理硬件的软件模块。这个模块有状态，状态转换很复杂:根据事件，模块可以从状态 A 到状态 B 或者可能到 C .但是，当它退出某个状态时，它应该对硬件执行一些操作，以使其也保
算法分析 : In practice, 高阶项的系数重要吗？
考虑 an^2 + bn + c。我知道对于大的 n，bn 和 c 变得微不足道。我还了解到，对于较大的 n，2n^2 和 n^2 之间的差异非常微不足道 n^2 和 n*log(n) 之间的区别。
mysql - "practically"足够的数据库规范化级别是多少？
我正在设计一个数据库并且我达到了(据我所知)Third Normal Form (3NF) 我的一些同事告诉我一个 Sixth Normal Form !!我想知道如何知道数据库的规范化水平是否足够。
sql - 设置Microsoft.Practices.EnterpriseLibrary的默认隔离级别
我有一个.net 3.5网站，该网站使用Microsoft.Practices.EnterpriseLibrary调用数千个不同的存储过程。我们已经遇到了很多超时，并且在播放和测试表末尾的（nolo
c# - 命名空间名称 'Practices' 不存在
我使用 nuget 包管理器添加了最近的企业库，但在部署时(而不是在构建时)仍然低于错误。包管理器:Install-Package EnterpriseLibrary.Data 谁能帮我命名空间“
cvs - 版本控制 "best practice"
我一直在阅读关于版本控制主题的所有问题，但我认为我没有找到一个看起来像我自己的场景。场景是: 我们有一个中型/大型 Web 应用程序，它有(至少应该有)一个部署到所有客户端的核心。当我们向客户演示应
matrix - 三维矩阵 : practical usage
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈，无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开，visit the help center . 8年前关闭
java - 异常处理和日志记录 : Better Practice
代码 (Java) 片段 ..... ..... if ( response.check() == checkNumber ) { String message = "You ar
delphi - 异常记录器 : Best Practices
我刚刚开始在我的(Delphi)应用程序中使用异常记录器(EurekaLog)。现在，我的应用程序每天都会通过电子邮件向我发送大量错误消息。这是我迄今为止发现的内容大量重复错误来自同一台电脑的多封
optimization - 特定例程的性能指标 : any best practices?
我想收集有关我的代码的特定例程的指标，以了解可以最好地优化的地方。让我们举一个简单的例子，假设我有一个包含多个“学生”的“类(class)”数据库。假设当前的代码为每个学生调用数据库，而不是一次性批量
hash - 加盐您的密码 : Best Practices?
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 2 年前。 Improv
sql - 嵌套查询: best practices
我正在尝试加快查询速度。其中很多都非常复杂，目前我主要通过创建多个查询并通过联接链接它们来实现这一点。这是最佳实践吗？还是我应该在 SELECT 中使用 SELECT 并尝试在一个查询中实现相同的目

首页

博学

6Ren·AI

商城

c++ - OpenMP/C++ : Parallel for loop with reduction afterwards - best practice?