- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在处理一些事情,试图让孤立工作发挥作用,并通过减少 #pragma omp parallel
的调用来减少开销。我正在尝试的是这样的:
#pragma omp parallel default(none) shared(mat,mat2,f,max_iter,tol,N,conv) private(diff,k)
{
#pragma omp master // I'm not against using #pragma omp single or whatever will work
{
while(diff>tol) {
do_work(mat,mat2,f,N);
swap(mat,mat2);
if( !(k%100) ) // Only test stop criteria every 100 iteration
diff = conv[k] = do_more_work(mat,mat2);
k++;
} // end while
} // end master
} // end parallel
do_work
取决于之前的迭代,因此 while 循环必须按顺序运行。但我希望能够并行运行“do_work”,所以它看起来像:
void do_work(double *mat, double *mat2, double *f, int N)
{
int i,j;
double scale = 1/4.0;
#pragma omp for schedule(runtime) // Just so I can test different settings without having to recompile
for(i=0;i<N;i++)
for(j=0;j<N;j++)
mat[i*N+j] = scale*(mat2[(i+1)*N+j]+mat2[(i-1)*N+j] + ... + f[i*N+j]);
}
我希望这可以通过某种方式实现,我只是不确定如何实现。所以非常感谢我能得到的任何帮助(如果你告诉我这是不可能的)。顺便说一句,我正在使用 open mp 3.0、gcc 编译器和 sun studio 编译器。
最佳答案
原始代码中的外部并行区域仅包含串行部分 (#pragma omp master
),这没有任何意义并有效地导致纯串行执行(无并行性)。由于 do_work()
依赖于之前的迭代,但是你想并行运行它,你必须使用同步。 openmp 工具是一个(显式或隐式)同步屏障。
例如(代码类似于你的):
#pragma omp parallel
for(int j=0; diff>tol; ++j) // must be the same condition for each thread!
#pragma omp for // note: implicit synchronisation after for loop
for(int i=0; i<N; ++i)
work(j,i);
请注意,如果任何线程仍在处理当前 j
,则隐式同步可确保没有线程进入下一个 j
。
另一种选择
for(int j=0; diff>tol; ++j)
#pragma omp parallel for
for(int i=0; i<N; ++i)
work(j,i);
应该效率较低,因为它会在每次迭代时创建一个新的线程组,而不仅仅是同步。
关于c++ - pragma omp for inside pragma omp master or single,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14384959/
我应该使用其中哪些忽略警告? #pragma clang diagnostic ignored "-W" #pragma GCC diagnostic ignored "-W" 两者似乎都对我有用,但
#pragma startup and #pragma exit: These directives helps us to specify the functions that are needed
Xcode 中 #pragma 标记的目的是什么?它们在 .m 文件中的位置是否重要?某些 #pragma 是否应该排在所有其他之前? 他们必须在场吗? 可以添加新标记吗?他们为什么会这样?是什么原因
我想使用 nim 访问完整模块(文件)的 AST。我发现,任何宏都可以用作自定义编译指示,所以我在文件 foo.nim 中做了这样的事情: import macros macro getAst(ast
考虑: void saxpy_worksharing(float* x, float* y, float a, int N) { #pragma omp parallel for
在带有 openMP 的 C++ 中,两者之间有什么区别吗 #pragma omp parallel for for(int i=0; i
在 Visual Studio 2010 中使用 C++ native 解决方案。 #pragma warning (push) 用于 cpp 文件的开头,在所有包含之后。之后,#pragma war
在 #pragma omp parallel 的开头创建了一堆线程,然后当我们到达 #pragma omp for 时,工作负载被分配。如果这个 for 循环内部有一个 for 循环,并且我在它之前也
使用#pragma pop_macro("int") #include using namespace std; #define int double void main() { int i
我正在处理一些事情,试图让孤立工作发挥作用,并通过减少 #pragma omp parallel 的调用来减少开销。我正在尝试的是这样的: #pragma omp parallel default(n
我是 OpenMP 的新手,我一直在尝试运行一个使用 OpenMP 添加两个数组的程序。在 OpenMP 教程中,我了解到,在 for 循环上使用 OpenMP 时,我们需要使用 #pragma om
我阅读了有关循环展开的文档。它解释说,如果将展开因子设置为 1,则程序将像使用 #pragma nounrolling 一样工作。 但是,该文件不包括#pragma unroll(0) 案例..由于
我正在尝试使用 #pragma pack (n) 对齐数据成员.以下面为例: #include using namespace std; #pragma pack(8) // or (16) str
我是 C 语言的菜鸟,正在尝试学习 #pragma 预处理器指令。我在谷歌上查找并找到了这个链接:GeeksforGeeks Pragma Directive in C 在这个链接中,他们说 #pra
之间有什么区别: #pragma omp for {for_loop} 和 #pragma omp parallel for {for_loop} 最佳答案 #pragma omp par
我正在查看一些 C++/CLI 代码,并且看到了很多这样的语句,主要是围绕 #includes。他们的意思是什么?我知道他们,根据 MSDN,Enable function-level control
在 OpenMP 中 #pragma omp master 中的任何代码指令由单个线程(主线程)执行,在区域末尾没有隐含的屏障。 (见 section on MASTER directive in t
一些项目使用 #pragma nv_exec_check_disable 和/或 #pragma hd_warning_disable 使 NVCC 的警告静音 warning: calling a
英特尔编译器允许我们通过以下方式对循环进行矢量化 #pragma simd for ( ... ) 但是,您也可以选择使用 OpenMP 4 的指令执行此操作: #pragma omp simd fo
我想构建一些代码,在加载共享库时调用一些代码。我以为我会这样做: #pragma init(my_init) static void my_init () { //do-something }
我是一名优秀的程序员,十分优秀!