gpt4 book ai didi

c++ - 当 num_threads 变化时,OpenMP 并行区域开销增加

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:10:04 27 4
gpt4 key购买 nike

我试图在程序的不同部分使用不同数量的线程来实现最大加速。但是,发现使用 num_threads 子句切换线程数会产生大量开销。我正在寻找对此的解释,因为根据我的理解,线程池应该始终包含给定数量的线程,而不管调用的实际数量是多少。我也在寻找可能的解决方法。谢谢。

示例代码:

#include<cstdio>
#include<omp.h>

void omp_sum(int ntd) {
int s = 0;
#pragma omp parallel num_threads(ntd)
{
int i = omp_get_thread_num();
#pragma omp atomic
s += i;
}
}

int main()
{
int N = 100;
int NT1 = 6, NT2 = 12;
double t;

t = omp_get_wtime();
for(int n=0;n<N;n++) {
omp_sum(NT1);
}
printf("%lf\n", (omp_get_wtime() - t) * 1e6 );

t = omp_get_wtime();
for(int n=0;n<N;n++) {
omp_sum(NT2);
}
printf("%lf\n", (omp_get_wtime() - t) * 1e6 );

t = omp_get_wtime();
for(int n=0;n<N;n++) {
omp_sum(NT1);
omp_sum(NT1);
}
printf("%lf\n", (omp_get_wtime() - t) * 1e6 );

t = omp_get_wtime();
for(int n=0;n<N;n++) {
omp_sum(NT2);
omp_sum(NT2);
}
printf("%lf\n", (omp_get_wtime() - t) * 1e6 );

t = omp_get_wtime();
for(int n=0;n<N;n++) {
omp_sum(NT1);
omp_sum(NT2);
}
printf("%lf\n", (omp_get_wtime() - t) * 1e6 );
}

示例输出(以我们为单位):

1034.069001
1058.620000
1034.572000
2210.681000
18234.355000

编辑:运行代码的工作站有 2 个六核 Intel E5-2630L CPU,因此总共应该有 12 个硬件内核和 24 个超线程。我使用的是 Fedora 19 和 GCC 4.8.2。

最佳答案

我可以在我的四核系统/八超线程系统上使用 GCC 4.8 (g++ -O3 -fopenmp foo.cpp) 重现您的结果。我将 N1 更改为 4,将 N2 更改为 8。

你的函数 omp_sum 很简单

pushq   %rbx    
movq %rdi, %rbx
call omp_get_thread_num
movq (%rbx), %rdx
lock addl %eax, (%rdx)
popq %rbx
ret

这是循环的汇编代码

for(int n=0;n<N;n++) {
omp_sum(NT1);
omp_sum(NT2);
}

.L10
leaq 32(%rsp), %rsi
xorl %ecx, %ecx
movl $4, %edx
movl $_Z7omp_sumi._omp_fn.0, %edi
movl $0, 28(%rsp)
movq %rbx, 32(%rsp)
call GOMP_parallel
leaq 32(%rsp), %rsi
xorl %ecx, %ecx
movl $8, %edx
movl $_Z7omp_sumi._omp_fn.0, %edi
movl $0, 28(%rsp)
movq %rbx, 32(%rsp)
call GOMP_parallel
subl $1, %ebp
jne .L10

这与循环的程序集几乎相同

for(int n=0;n<N;n++) {
omp_sum(NT2);
omp_sum(NT2);
}

唯一的变化是 movl $4, %edx 而不是 movl $8, %edx。所以很难看出是什么导致了问题。所有的魔法都发生在 GOMP_parallel 中。必须查看 GOMP_parallel 的源代码,但我的猜测是 GOMP_parallel 检查最后一次在并行调用中使用的线程数,如果新的并行调用使用不同数量的线程,它会产生一些切换开销。该开销比您的简单函数大得多。

但我不确定为什么这会成为一个问题。在实践中,使用如此短的并行部分是没有意义的(一个人会并行化一个循环,而 N 会更大),因此开销应该不是问题。

编辑:标题为“确定并行区域的线程数”的 OpenMP 3.1 规范的第 2.41 节给出了确定线程数的算法。 The source code for GOMP_parallel from GCC-4.8表明它调用的第一个函数是 gomp_resolve_num_threads

关于c++ - 当 num_threads 变化时,OpenMP 并行区域开销增加,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24440118/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com