c++ - OpenMP 并行代码运行速度较慢-6ren

c++ - OpenMP 并行代码运行速度较慢

转载作者：太空宇宙更新时间：2023-11-04 04:48:51

我看过很多这样的帖子，尽管阅读了大量内容，但我似乎无法在 OpenMP 中正确并行化以下代码，因为串行版本目前运行速度比这快得多:

static double red_black_parallel_for_step(simulation* simObj, double stepSize, double* red, double* black){
double tmp = 0.0;   
double avg = 0.0;
double old = 0.0;
double max = -HUGE_VAL;
#pragma omp parallel \
shared(black, red, max) \
firstprivate(old, avg, tmp) 
{
    double priv_max = -HUGE_VAL;
    #pragma omp for 
    for(unsigned int j = 0; j < (*simObj).NY+2; j++){
        for(unsigned int i = 0; i < (int)floor((double)((*simObj).NX+2.0)/2.0); i++){
            for(unsigned int k = 1; k < (*simObj).NZ; k++){
                if(red[IX3] == HUGE_VAL) continue;
                old = red[IX3];
                avg = 0.0;
                const int x1 = ( black[IX3+IX3_XR1STEP] != HUGE_VAL ); 
                const int x2 = ( black[IX3+IX3_XR2STEP] != HUGE_VAL ); 
                const int y1 = ( black[IX3+IX3_YSTEP]   != HUGE_VAL ); 
                const int y2 = ( black[IX3-IX3_YSTEP]   != HUGE_VAL ); 
                const int z1 = ( black[IX3+IX3_ZSTEP]   != HUGE_VAL );
                const int z2 = ( black[IX3-IX3_ZSTEP]   != HUGE_VAL );
                if (x1) avg += black[IX3+IX3_XR1STEP];
                if (x2) avg += black[IX3+IX3_XR2STEP];
                if (y1) avg += black[IX3+IX3_YSTEP];
                if (y2) avg += black[IX3-IX3_YSTEP];
                if (z1) avg += black[IX3+IX3_ZSTEP];
                if (z2) avg += black[IX3-IX3_ZSTEP];
                avg /= (double) (x1+x2+y1+y2+z1+z2);
                red[IX3] = old + stepSize * (avg - old);
                tmp = fabs(old - red[IX3]) / fabs(old);
                if( tmp > priv_max ) priv_max = tmp;
            }
        }
    }
    #pragma omp flush (max)
    if ( priv_max > max ) {
        #pragma omp critical
        {
            if ( priv_max > max ) max = priv_max;
        }
    }
}
#pragma omp parallel \
shared(black, red, max) \
firstprivate(old, avg, tmp) 
{
    double priv_max = -HUGE_VAL;
    #pragma omp for 
    for(unsigned int j = 0; j < (*simObj).NY+2; j++){
        for(unsigned int i = 0; i < (int)floor((double)((*simObj).NX+2)/2.0); i++){
            for (unsigned int k = 1; k < (*simObj).NZ; k++ ){   
                if ( black[IX3] == HUGE_VAL ) continue;
                old = black[IX3];
                avg = 0.0;
                const int x1 = ( red[IX3+IX3_XB1STEP] != HUGE_VAL ); 
                const int x2 = ( red[IX3+IX3_XB2STEP] != HUGE_VAL ); 
                const int y1 = ( red[IX3+IX3_YSTEP]   != HUGE_VAL ); 
                const int y2 = ( red[IX3-IX3_YSTEP]   != HUGE_VAL ); 
                const int z1 = ( red[IX3+IX3_ZSTEP]   != HUGE_VAL );
                const int z2 = ( red[IX3-IX3_ZSTEP]   != HUGE_VAL );
                if (x1) avg += red[IX3+IX3_XB1STEP];
                if (x2) avg += red[IX3+IX3_XB2STEP];
                if (y1) avg += red[IX3+IX3_YSTEP];
                if (y2) avg += red[IX3-IX3_YSTEP];
                if (z1) avg += red[IX3+IX3_ZSTEP];
                if (z2) avg += red[IX3-IX3_ZSTEP];
                avg /= (double) (x1+x2+y1+y2+z1+z2);
                black[IX3] = old + stepSize * (avg - old);
                tmp = fabs(old - black[IX3]) / fabs(old); 
                if( tmp > priv_max ) priv_max = tmp;
            }
        }
    }
    #pragma omp flush (max)
    if ( priv_max > max ) {
        #pragma omp critical
        {
            if ( priv_max > max ) max = priv_max;
        }
    }
}
return max;
}

复杂的因素是我需要跟踪红色/黑色迭代之间的最大相对变化 (max)。任何帮助将非常感激。

最佳答案

仅在比较之后尝试刷新，并且仅在关键 block 内:

/* not here: #pragma omp flush (max) */
if ( priv_max > max ) { // this should filter out most of the flush operations
    #pragma omp critical
    {
        if ( priv_max > max ) max = priv_max; // now flush; this operation will be exclusive/"critical"
        #pragma omp flush (max)
    }
}

关于c++ - OpenMP 并行代码运行速度较慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18070146/

文章推荐： c - 在生产代码库 cppUnit 中模拟一个 c 文件

文章推荐： python - 通过selenium动态创建一个新元素

文章推荐：找不到带有 uuid_t typedef 的 unistd.h

文章推荐： c - 为什么 mex 代码运行得比 matlab 代码慢

javascript - 为什么 xpath 较慢
有人可以解释一下，在 DOM 中搜索元素时，为什么 Xpath 被认为比 CSS 选择器慢。不同的选择器是否有不同的引擎(例如 Xpath、CSS 选择器等) 谢谢最佳答案 Xpath 并不是被认为
c# - Ajax 调用在物理上不同的文件中对 Controller 较慢
在我们的一个 MVC 页面中尝试加速某些 ajax 调用时，我遇到了一些我无法真正解释的奇怪行为。我每隔 N 秒就会进行一些 ajax 调用，以轮询一些统计数据。似乎在物理上不同的文件中对 Cont
java - Apache Commons Lang StringUtils 较慢
Background 尝试进行一个简单的实验，看看传统的 if 语句检查 null 是否比 Apache Commons Lang StringUtils isEmpty/isBlank 更快。为了
android - 与 PC 相比，为什么 Android 中的响应时间(对于 Rest Call)较慢？
我正在从 Android 设备调用 rest api，并且看到与 PC 相比的速度差异，我感到非常惊讶。下面是来自 PC 上的休息工具的图像。我尝试了几个库，如 Retrofit、Volley 和常
python - 为什么 scipy.distance.cdist 在使用 float32 (较慢)和 float64 (较快)之间有很大的性能差异？
为什么 scipy.distance.cdist 使用 float32 和 float64 时性能差异很大？ from scipy.spatial import distance import num

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - OpenMP 并行代码运行速度较慢