gpt4 book ai didi

c++ - openMP过度同步

转载 作者:太空宇宙 更新时间:2023-11-04 12:57:49 24 4
gpt4 key购买 nike

我正在尝试将 openMP 并行化添加到一个相当大的项目中,我发现 openMP 在并行 block 之外做了太多同步。

这种同步是针对所有变量完成的,甚至是那些没有在并行 block 中使用的变量,而且它是连续完成的,而不仅仅是在进入 block 之前。

我举了一个例子来证明这一点:

#include <cmath>

int main()
{
double dummy1 = 1.234;

int const size = 1000000;
int const size1 = 2500;
int const size2 = 500;

for(unsigned int i=0; i<size; ++i){

//for (unsigned int j=0; j<size1; j++){
// dummy1 = pow(dummy1/2 + 1, 1.5);
//}

#pragma omp parallel for
for (unsigned int j=0; j<size2; j++){
double dummy2 = 2.345;
dummy2 = pow(dummy2/2 + 1, 1.5);
}
}
}

如果我运行此代码(注释了 for 循环),运行时间为 6.75 秒(带并行化)和 30.6 秒(不带并行化)。太好了。

但是如果我取消注释 for 循环并再次运行它,过度同步就会开始,我得到的结果是 67.9 秒的并行化和 73 秒的并行化。如果我增加 size1,与没有并行化相比,我什至会得到更慢的结果。

有没有办法禁用此同步并仅在第二个 for 循环之前强制它?或任何其他方式如何提高速度?

请注意,在实际示例中,外部的第一个 for 循环都不是可并行化的。外层实际上是一个 ODE 求解器,而第一个内层是更新内部值负载。

我使用的是 gcc (SUSE Linux) 4.8.5

感谢您的回答。

最佳答案

最后,我的问题的解决方案是指定线程数 = 处理器核心数。似乎是超线程导致了问题。所以使用(我的处理器有 4 个真正的内核)

#pragma omp parallel for num_threads(4)

没有第一个 for 循环我得到 8.7 秒的时间,有它的时间为 51.9 秒。仍然有大约 1.2s 的开销,但这是可以接受的。使用默认值(8 个线程)

#pragma omp parallel for

时间分别是6.65s和68s。这里的开销大约是 19s。

因此,如果没有其他代码存在,超线程会有所帮助,但如果存在,使用它可能并不总是一个好主意。

关于c++ - openMP过度同步,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45755807/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com