loops - 控制并行循环中的线程数并减少开销-6ren

loops - 控制并行循环中的线程数并减少开销

转载作者：行者123 更新时间：2023-12-04 20:33:12

25

4

在我的 Fortran 95 代码中，我有一系列嵌套的 DO 循环，整个循环需要大量时间来计算，所以我想用 OpenMP 添加并行功能(使用 gfortran -fopenmp 编译/构建)。

有一个主 DO 循环，运行 1000 次。

其中有一个子 DO 循环，运行 100 次。

其他几个DO循环嵌套在其中，迭代次数随着DO循环的每次迭代而增加(第一次，最后一次最多1000次)。

例子:

DO a = 1, 1000

    DO b = 1, 100

        DO c = 1, d
            some calculations
        END DO

        DO c = 1, d
            some calculations
        END DO

        DO c = 1, d
            some calculations
        END DO
    END DO
    d = d + 1
END DO

一些嵌套的 DO 循环必须串行运行，因为它们内部包含依赖关系(也就是说，循环的每次迭代都有一个包含前一次迭代的值的计算)，并且在这种情况下不容易并行化.

我可以轻松地使没有任何依赖项的循环并行运行，如下所示:

d = 1
DO a = 1, 1000

    DO b = 1, 100

        DO c = 1, d
            some calculations with dependencies
        END DO
!$OMP PARALLEL
!$OMP DO
        DO c = 1, d
            some calculations without dependencies
        END DO
!$OMP END DO
!$OMP END PARALLEL
        DO c = 1, d
            some calculations with dependencies
        END DO
    END DO
    d = d + 1
END DO

但是我知道打开和关闭并行线程会有很大的开销，因为这在循环中发生了很多次。代码的运行速度明显慢于以前按顺序运行时的运行速度。

在此之后，我认为打开和关闭主循环两侧的并行代码(因此只应用一次开销)并将线程数设置为 1 或 8 以控制部分是按顺序运行还是按顺序运行是有意义的并行，如下:

d = 1
CALL omp_set_num_threads(1)
!$OMP PARALLEL
DO a = 1, 1000

    DO b = 1, 100

        DO c = 1, d
            some calculations with dependencies
        END DO
    CALL omp_set_num_threads(4)
!$OMP DO
        DO c = 1, d
            some calculations without dependencies
        END DO
!$OMP END DO
    CALL omp_set_num_threads(1)

        DO c = 1, d
            some calculations with dependencies
        END DO
    END DO
    d = d + 1
END DO
!$OMP END PARALLEL

但是，当我将它设置为运行时，我没有获得运行并行代码所期望的加速。我希望前几个会更慢来解释开销，但过了一段时间我希望并行代码比顺序代码运行得更快，但事实并非如此。我比较了主 DO 循环的每次迭代运行的速度，对于 DO a = 1, 50 ，结果如下:

Iteration    Serial    Parallel
1            3.8125    4.0781              
2            5.5781    5.9843              
3            7.4375    7.9218              
4            9.2656    9.7500              
...                              
48           89.0625   94.9531                
49           91.0937   97.3281                
50           92.6406   99.6093

我的第一个想法是我以某种方式没有正确设置线程数。

问题:

我构建并行代码的方式有什么明显错误吗？

有没有更好的方法来实现我所做的/想要做的？

最佳答案

确实有一些明显错误的地方:您已经从代码中删除了任何并行性。在创建最外面的并行区域之前，您将其大小定义为一个线程。因此，将只创建一个线程来处理该区域内的任何代码。随后使用 omp_set_num_threads(4)不会改变这一点。这个电话只是说下一个parallel指令将创建 4 个线程(除非另有明确要求)。但是没有这样的新 parallel指令，本应在此处嵌套在当前之一。您只有一个工作分享 do应用于当前封闭 parallel 的指令一个独特线程的区域。

有两种方法可以解决您的问题:

保持您的代码原样:尽管正式，您将在进入和退出 parallel 时 fork 并加入您的线程。区域，OpenMP 标准不要求创建和销毁线程。实际上，它甚至鼓励线程保持事件状态以减少 parallel 的开销。指令，这是由大多数 OpenMP 运行时库完成的。因此，这种简单的方法的问题的有效载荷并不太大。

使用第二种方法来插入 parallel指令在最外层循环之外，但是创建尽可能多的线程以进行工作共享(我相信这里是 4 个)。然后，您将所有必须按顺序排列的内容包含在 parallel 中。具有 single 的区域指示。这将确保不会发生与额外线程的不需要的交互(隐式屏障和退出时共享变量的刷新)，同时避免您不想要的并行性。

最后一个版本看起来像这样:

d = 1
!$omp parallel num_threads( 4 ) private( a, b, c ) firstprivate( d )
do a = 1, 1000
    do b = 1, 100
!$omp single
        do c = 1, d
            some calculations with dependencies
        end do
!$omp end single
!$omp do
        do c = 1, d
            some calculations without dependencies
        end do
!$omp end do
!$omp single    
        do c = 1, d
            some calculations with dependencies
        end do
!$omp end single
    end do
    d = d + 1
end do
!$omp end parallel

现在，与天真的版本相比，此版本实际上是否更快，由您来测试。

不过最后要说的是:由于您的代码中有相当多的连续部分，所以无论如何不要期望有太多的加速。 Amdahl's law是永远。

关于loops - 控制并行循环中的线程数并减少开销，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41273885/

25

4

0

文章推荐： http2 - OkHttp中如何实现接收服务器推送？

文章推荐： RxJS - 多次调用 FlatMap 观察者

控制 double
大家好，我完成了这个基本的 C 程序，它向输入任何给定数字集的用户显示有序集、最小值、最大值、平均值和中值。我遇到的问题是，当我打印数字时，我必须使用诸如“3.2%f”之类的东西来设置标准的精度，我怎
python进程间查询/控制
我有这个基于 Python 的服务守护进程，它正在执行大量多路复用 IO(选择)。从另一个脚本(也是 Python)我想查询这个服务守护进程的状态/信息和/或控制处理(例如暂停它、关闭它、更改一些参
控制 C 代码中的操作顺序
我读到 Fortran 对表达式求值的顺序有严格的规则。对于某些数值算法来说，这一点非常重要。数值 C 程序如何控制浮点运算的顺序并防止编译器“优化”到不需要的运算顺序，例如将 (a*b)*c 更改
控制 MPI_COMM_SPAWN 的节点映射
上下文: 整个问题可以概括为我正在尝试复制调用system(或fork)的行为，但在 mpi 环境中。 (事实证明，你不能并行调用system。)这意味着我有一个程序在许多节点上运行，每个节点上有一个
控制 scanf() 接受任何输入的持续时间
我考虑过控制scanf来接受c中的任何输入。我的概念是等待10秒(或任何其他时间)来接受任何输入。10秒后它将退出并且不再接收任何输入。 int main(){ int a,b,c,d; sca
javascript - 控制.each循环nodejs内的执行流程
我正在尝试使用生成器停止 setTimeOut 上的执行流程。我究竟做错了什么？我无法让 console.log 每 1500 毫秒退出一次。我是 node 的新手，如果我在做一件非常愚蠢的事情，请不
android - 控制 Activity
我希望我的应用程序的 Activity 堆栈包含同一 Activity 的多个实例，每个实例处理不同的数据。因此，我将让 Activity A 在我的 Activity 堆栈中处理数据 a、b、c 和
Bash:控制 SSH
我有这个 bash 文件，它向设备询问 OpenSSH 的 IP、密码等。现在，如果我使用 ssh root@ip，我必须输入密码。这真的很烦人。第二;我不能让我的脚本向它发送命令。这就是我想要的
控制 GCC 优化
我正在尝试测试我有权访问的机器的缓存属性。为此，我正在尝试读取内存并对其计时。我改变工作集大小和步幅访问模式以获得不同的测量值。代码如下所示: clock1 = get_ticks() for (i
控制 makefile 的输出
我正在尝试编写一个 makefile 来替换用于构建相当大的应用程序的脚本之一。当前脚本一次编译一个文件，使用 make 的主要原因是并行化构建过程。使用 make -j 16 我目前在办公室服务器
控制 c 导致打印垃圾
我正在制作一个小的测试程序，它演示了一个粗糙的控制台界面。该程序是一个低于标准的典型获取行、响应程序，它甚至不识别“退出”，并希望您通过按 control-c 强制退出。在 Mingw32 上完成。
C# - SIP 控制
好的，我有一个 VOIP 电话。我知道电话的 IP 地址和端口，并且可以完全访问电话，我正在使用它通过 SIP 中继调用 SIP 电话。我基本上想随时查看手机上发生的事情，但我不知道从哪里开始。如
windows - 控制 WriteProfileString
是否可以指定 CWinApp::WriteProfileString() 使用的应用程序名称？如果我使用 CWinApp::SetRegistryKey 将我的公司名称设置为“MyCompany”，
Python - 控制 Tor
我正在尝试用 Python 控制 Tor。我在 stackoverflow 上阅读了其他几个关于这个主题的问题，但没有一个能回答这个问题。我正在寻找一种方法，以便在命令运行时为您提供“新身份”、新
iPhone与iWatch连接、控制、数据传递（Swift）的方法
最近在做一个项目，涉及到iPhone设备和手表传输数据、控制彼此界面跳转，在网上找了很多资料，发现国内的网站这方面介绍的不多，而国外的网站写的也不是很全，所以在这写这篇文章，给大家参考一下，望大神指
r - 控制 map 图例中的值范围
我想增加图中值的范围。在示例中，值的范围从 50 到 200。但是，我需要按如下方式分配值:50 75 100 125 150 175 200 并且最好使用 scale_fill_gradientn
Flutter:控制 IconButton 上的波纹效果大小
我有一个IconButton，当按下时波纹效果是圆形的并且比按钮的面积大，我怎样才能减少点击按钮时波纹效果的大小？ IconButton( constraints
.net - 控制 .nuspec 中的代码契约引用
我正在使用代码契约(Contract)为我的项目生成附属程序集。基本上它为项目的 MyAssembly.dll 创建一个 MyAssembly.Contracts.dll。这应该放在你的程序集旁边，但
r - 控制 ggraph 中的构面顺序
我想使用分面绘制图形，其中面板之间的边缘不同。面板按字母顺序自动排序(按照 ggplot 中的惯例)。一个简单的例子: library(igraph) library(ggraph) g <- mak
android - 控制 AppWidget 实例的数量
我想为我的 Android 应用程序创建一个小部件，以显示有关位置的一些实时详细信息，例如天气。但我想在任何时候允许最多 3 个小部件实例，每个实例都有不同的位置。我不确定该怎么做，也找不到任何信息。

首页

博学

6Ren·AI

商城

loops - 控制并行循环中的线程数并减少开销