multithreading - 通过分离#omp parallel 和#omp for，减少OpenMP fork/join 开销-6ren

multithreading - 通过分离#omp parallel 和#omp for，减少OpenMP fork/join 开销

转载作者：行者123 更新时间：2023-12-04 13:38:45

32

4

我正在阅读 Peter S. Pacheco 的《并行编程简介》一书。在第 5.6.2 节中，它对减少 fork/join 开销进行了有趣的讨论。
考虑奇偶转置排序算法:

for(phase=0; phase < n; phase++){
    if(phase is even){
#       pragma omp parallel for default(none) shared(n) private(i)
        for(i=1; i<n; i+=2){//meat}
    }
    else{
#       pragma omp parallel for default(none) shared(n) private(i)
        for(i=1; i<n-1; i+=2){//meat}
    }
}

作者认为上述代码具有较高的 fork/join 开销。因为线程在外循环的每次迭代中都被 fork 并加入。因此，他提出以下版本:

# pragma omp parallel default(none) shared(n) private(i, phase)
for(phase=0; phase < n; phase++){
    if(phase is even){
#       pragma omp for
        for(i=1; i<n; i+=2){//meat}
    }
    else{
#       pragma omp for
        for(i=1; i<n-1; i+=2){//meat}
    }
}

根据作者的说法，第二个版本在外循环开始之前 fork 线程并在每次迭代中重用线程，从而产生更好的性能。

但是，我怀疑第二个版本的正确性。据我了解，一个 #pragma omp parallel指令启动一组线程并让线程并行执行以下结构化块。在这种情况下，结构块应该是整个外部 for 循环 for(phase=0 ...) .那么，在使用 4 个线程的情况下，不应该是整个外循环执行四次的情况吗？也就是说，如果 n=10 ，然后将在 4 个线程上执行 40 次迭代。我的理解有什么问题？以及如何 omp parallel (没有for)像上面一样使用以下for循环？

最佳答案

第二个版本是正确的。

根据 OpenMP 规范，#pragma omp parallel for指令只是 #pragma omp parallel 的快捷方式紧随其后的是 #pragma omp for ，如

#pragma omp parallel
{
    #pragma omp for
    for(int i=0; i<N; ++i) { /*loop body*/ }
}

如果在循环构造之前或之后的并行区域中有一些代码，它将由该区域中的每个线程独立执行(除非受到其他 OpenMP 指令的限制)。但是， #pragma omp for是一个工作共享结构；该指令后面的循环由该区域中的所有线程共享。 IE。它作为单个循环执行，迭代以某种方式跨线程拆分。因此，如果上面的并行区域由 4 个线程执行，循环仍然只会执行一次，而不是 4 次。

回到您问题中的示例:相位循环由每个线程单独执行，但 #pragma omp for在每个阶段迭代指示共享循环的开始。对于n=10，每个线程将进入一个共享循环10次，并执行其中的一部分；所以不会有 40 次内部循环执行，而只有 10 次。

请注意，在 #pragma omp for 的末尾有一个隐式障碍;这意味着在所有其他线程也完成其部分之前，完成共享循环部分的线程将不会继续。因此，执行是跨线程同步的。在大多数情况下，这是确保正确性所必需的；例如在您的示例中，这保证了线程始终在同一阶段工作。但是，如果区域内的后续共享循环可以安全地同时执行，则 nowait子句可用于消除隐式障碍并允许线程立即进行并行区域的其余部分。

还要注意，这种工作共享指令的处理是 OpenMP 特有的。对于其他并行编程框架，您在问题中使用的逻辑可能是正确的。

最后，在并行区域完成后，智能 OpenMP 实现不会加入线程；相反，线程可能会忙等待一段时间，然后休眠直到另一个并行区域启动。这样做正是为了防止并行区域开始和结束时的高开销。因此，虽然书中建议的优化仍然消除了一些开销(也许)，但对于某些算法，它对执行时间的影响可能可以忽略不计。问题中的算法很可能是其中之一；在第一个实现中，并行区域在串行循环中一个接一个地快速跟随，因此 OpenMP 工作线程很可能会在区域的开头处于事件状态并快速启动，从而避免 fork/join 开销。因此，如果在实践中您发现与所描述的优化没有性能差异，请不要感到惊讶。

关于multithreading - 通过分离#omp parallel 和#omp for，减少OpenMP fork/join 开销，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27173809/

32

4

0

文章推荐： compiler-errors - 莎士比亚变量分配不起作用

文章推荐： math - "Average"多个四元数？

文章推荐： sed - 如何使用sed在Solaris上删除下一行

文章推荐： jetty - 如何更改spark.ui.port？

WebRTC 开销
我想知道，通过数据 channel 发送数据时 WebRTC 会产生多少开销。我知道 Websockets 每帧有 2 - 14 字节的开销。 WebRTC 是否使用更多开销？我在网上找不到一些有用
与类和对象相关的 JavaScript 开销
我想知道与创建新类而不是该类的新对象相关的开销是小还是大。我正在使用 dojo，但我将提供纯 JS 的示例。我将在启动时创建 10 到 100 个对象，我认为这不会是一个严重的问题，但我想涵盖所有基础
MySQL 开销，是我的查询错误还是应该优化表？
我有一个如下所示的表设置。 Table comment_flags user_id comment_id 我允许用户标记评论，然后给他们取消标记的选项，因为他们可能犯了一个错误。问题
Mysql phpmyadmin 开销
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: In MySQL what does “Overhead” mean, what is bad about it,
重复分配的 JavaScript 开销
我正在制作一个非常简单的游戏，只是为了好玩/练习，但无论它现在有多简单，我仍然想很好地编写它，以防我想回到它并只是为了学习因此，在这种情况下，我的问题是: 对象分配涉及多少开销？解释器对此的优化程度
c# - 传递结构是否比传递其成员占用更多的内存/开销？
我有一些资源敏感的东西要写。我想知道与仅将这些变量一起传递(例如作为函数参数)相比，在结构中将变量组合在一起是否真的会导致内存开销。如果是这样，那么在不产生开销的情况下创建对惰性值进行操作的东西的好
Python:OOP 开销？
我一直在开发一个实时应用程序，并注意到一些 OOP 设计模式在 Python 中引入了难以置信的开销(使用 2.7.5 进行了测试)。直截了当，当字典被另一个对象封装时，为什么简单的字典值访问器方法
字符串连接的 C++ 开销
我正在从 ifstream 中读取随机 ascii 文本文件。我需要能够将整个消息放入字符串类型以进行字符解析。我当前的解决方案有效，但我认为我通过使用等效于此的方式来谋杀更冗长文件的处理时间: st
android - getActivity() 开销
纯粹从软件工程的角度来看，getActivity() 有多少开销？我在整个应用程序中经常多次使用此方法，并考虑使用一个引用 getActivity() 的全局变量。如果为 Activity 设置一
recursion - F# 递归与迭代速度/开销
我一直在研究 Riccardo Terrell 的 Akka.NET 分形演示 (https://github.com/rikace/akkafractal) 以尝试理解它。 (这很棒，顺便说一句)
performance - 高分辨率计时器/代码运行时间-> 开销？
我正在尝试使用高分辨率计时器查找我的代码运行时间，我注意到计时器的结果不一致，我想知道为什么会这样。我找到了这篇文章 How do you test running time of VBA code
WPF 绑定(bind)开销
我正在学习WPF。我现在开始装订了。使用 INotifyPropertyChanged 时绑定(bind)是否依赖反射？是这样，价格是多少？我正在考虑使用 WPF 来显示通过 UDP 流式传输的数据，
C++ 静态成员函数与 lambda 开销
我有某种模板化基类 template class Base { }; 并希望将其派生实例存储在列表中。为此，我使用 using derived_handle = std::unique_ptr v
haskell - GHC TypeLit 开销
使用GHC.TypeLits中的Sing有任何开销吗？？以程序为例: {-# LANGUAGE DataKinds #-} module Test (test) where import GHC.T
C++ 静态成员函数与 lambda 开销
我有某种模板化基类 template class Base { }; 并希望将其派生实例存储在列表中。为此，我使用 using derived_handle = std::unique_ptr v
python - 如何跳过结果中的 ORM 开销？
我有一个 ORM sqlalchemy 模型，我需要构建一个查询(使用 ORM 类更容易构建)，但这需要大量时间。当我直接像 SQL 一样向数据库执行相同的查询时，速度相当快。使用 SQLAlche
php - MySQL 开销 - 如何调整服务器以加速不良查询
我在 PHP 平台上有一家商店(开发不善)，那里有很多不好的查询(没有索引的长查询、rand() 排序、动态计数，..) 我现在无法更改查询，但我必须调整服务器才能保持事件状态。我尝试了我所知道的一
php - 本地服务器上的 MySQL 开销
我有一个使用 JQuery mobile 构建的移动应用程序，响应时间对我来说非常重要，因为我希望为我的用户提供流畅的体验。我刚刚将网站的安装移至本地服务器，以提高应用程序的性能，因为它连接到本地
mysql - 列的 SQL 开销
关于数据库设计的问题。如果我有 28 个 bool 值并且能够将它们添加为每行 28 个 bool 值或一个整数，哪一个会更快？哪种方法将使磁盘上的表大小保持最低？这是在假设我需要的可以通过查询中的
c++ - 接口(interface)开销
我有一个看起来像 Boost.Array 的简单类。有两个模板参数 T 和 N。Boost.Array 的一个缺点是，每个使用这种数组的方法都必须是带有参数 N 的模板(T 可以)。结果是整个程序往往

首页

博学

6Ren·AI

商城

multithreading - 通过分离#omp parallel 和#omp for，减少OpenMP fork/join 开销