c++ - 红黑高斯赛德尔和 OpenMP-6ren

c++ - 红黑高斯赛德尔和 OpenMP

转载作者：太空狗更新时间：2023-10-29 23:06:26

25

4

与 MPICH 相比，我试图用 OpenMP 证明一个观点，我编写了以下示例来演示在 OpenMP 中实现一些高性能是多么容易。

Gauss-Seidel 迭代被分成两个独立的运行，这样在每次扫描中，每个操作都可以按任何顺序执行，并且每个任务之间应该没有依赖关系。所以理论上每个处理器都不必等待另一个进程来执行任何类型的同步。

我遇到的问题是，无论问题大小如何，我发现只有 2 个处理器的微弱加速，超过 2 个处理器甚至可能更慢。许多其他线性并行例程我可以获得很好的缩放比例，但是这个很棘手。

我担心的是我无法向编译器“解释”我对数组执行的操作是线程安全的，因此它无法真正有效。

请参阅下面的示例。

有人知道如何使用 OpenMP 使其更有效吗？

void redBlackSmooth(std::vector<double> const & b,
                    std::vector<double> & x,
                    double h)
{
    // Setup relevant constants.
    double const invh2 = 1.0/(h*h);
    double const h2 = (h*h);
    int const N = static_cast<int>(x.size());
    double sigma = 0;

    // Setup some boundary conditions.
    x[0] = 0.0;
    x[N-1] = 0.0;

    // Red sweep.
    #pragma omp parallel for shared(b, x) private(sigma)
    for (int i = 1; i < N-1; i+=2)
    {
        sigma = -invh2*(x[i-1] + x[i+1]);
        x[i] = (h2/2.0)*(b[i] - sigma);
    }

    // Black sweep.
    #pragma omp parallel for shared(b, x) private(sigma)
    for (int i = 2; i < N-1; i+=2)
    {
        sigma = -invh2*(x[i-1] + x[i+1]);
        x[i] = (h2/2.0)*(b[i] - sigma);
    }
}

添加:我现在也尝试过使用原始指针实现，它具有与使用 STL 容器相同的行为，因此可以排除它是来自 STL 的一些伪关键行为。

最佳答案

首先，确保 x vector 与缓存边界对齐。我做了一些测试，如果我强制对齐内存，我的机器(核心双核)上的代码得到了 100% 的改进:

double * x;
const size_t CACHE_LINE_SIZE = 256;
posix_memalign( reinterpret_cast<void**>(&x), CACHE_LINE_SIZE, sizeof(double) * N);

其次，您可以尝试为每个线程分配更多的计算(通过这种方式您可以保持缓存行分离)，但我怀疑 openmp 已经在幕后做了类似的事情，所以它可能对大 N 毫无值(value).

在我的例子中，当 x 不是缓存对齐时，这个实现要快得多。

const int workGroupSize = CACHE_LINE_SIZE / sizeof(double);
assert(N % workGroupSize == 0); //Need to tweak the code a bit to let it work with any N
const int workgroups = N / workGroupSize;
int j, base , k, i;

#pragma omp parallel for shared(b, x) private(sigma, j, base, k, i)
for ( j = 0; j < workgroups; j++ ) {
    base = j * workGroupSize;
    for (int k = 0; k < workGroupSize; k+=2)
    {
        i = base + k + (redSweep ? 1 : 0);
        if ( i == 0 || i+1 == N) continue;
        sigma = -invh2* ( x[i-1] + x[i+1] );
        x[i] = ( h2/2.0 ) * ( b[i] - sigma );
    }
}

总而言之，您肯定有缓存争用的问题，但考虑到 openmp 的工作方式(遗憾的是我不熟悉它)它应该足以处理正确分配的缓冲区。

关于c++ - 红黑高斯赛德尔和 OpenMP，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15719259/

25

4

0

文章推荐： C++ : check if two triangles intersect or not

文章推荐： c++ - 如何将 LuaJIT 与 C++ 程序链接起来？

php - 价格低-高/高-低过滤 PHP/Mysql
我正在寻找一种方法来创建根据价格选择我的产品的过滤器(选择下拉菜单)。我知道这样的查询是完全可能的: SELECT * FROM products ORDER BY price ASC SELECT
language-agnostic - 是(宽，高)还是(高，宽)？
函数参数中或显示尺寸时(高度，宽度)的顺序是否有约定？最佳答案我不知道大量的语言，但我使用过的语言(宽度，高度)。它更适合沿着 (x, y) 坐标线。关于language-agnostic -
javascript - 如果是计算形式，则计算立方米=高*平方米或立方米=长*宽*高
在我的表单中，我让用户输入房间的长度高度和宽度以获得 m2、m3 和瓦特的计算值。但是用户也应该能够直接输入 height 和 m2 来获取值。我尝试了很多语法，但 if else 不能正常工作。我知
elasticsearch - 创建索引的未知键 [高]
我在 Elasticsearch 中创建了一个索引，看起来像 {"amazingdocs":{"aliases":{},"mappings":{"properties":{"Adj Close":{"
快速将多个图像一次保存到文件系统，CPU 高
我有以下功能，我需要清除数据库中的所有图片列并移动到文件系统。当我一次性完成这一切时，内存太多并且会崩溃。我切换到递归函数并执行 20 次写入和批量操作。我需要为大约 6 个表执行此操作。我的 Re
C# 高 double
我正在编写一个函数来计算 PI 的值，并将其作为 double 值返回。到目前为止，一切都很好。但是一旦函数到达小数点后14位，它就不能再保存了。我假设这是因为 double 有限。我应该怎么做才能继
与传统cdn相比高性能cdn “高”在哪里?
2020年是中国CDN行业从98年诞生到今天快速发展的第二十四年，相关数据显示，全国感知网速持续上扬，达到了3.29兆/秒，标志着在宽带中国的政策指导下，中国的网速水平正在大步赶上世界发达国家的水平
lua - 高 Aerospike 延迟
在 aerospike 集合中，我们有四个 bin userId、adId、timestamp、eventype，主键是 userId:timestamp。在 userId 上创建二级索引以获取特定用
onclick - 高 map 获取点击事件的国家名称
$('#container').highcharts('Map', { title : { text : 'Highmaps basic demo'
youtube - YouTube嵌入广告的视频尺寸更大(宽/高)
有没有办法显示自定义宽度/高度的YouTube视频？最佳答案在YouTube网站上的this link中: You can resize the player by editing the obj
javascript - 高 map 中的动态悬停颜色
我使用 Highcharts ，我想在 Highcharts 状态下悬停时制作动态不同的颜色。正如你可以看到不同的颜色，这就是我做的 var usMapChart , data = [] ; va
cassandra - 高 native 传输请求始终被阻止
在所有节点上运行 tpstats 后。我看到很多节点都有大量的 ALL TIME BLOCKED NTR。我们有一个 4 节点集群，NTR ALL TIME BLOCKED 的值为: 节点 1:239
apc - 高 APC 碎片重要吗？
我发现 APC 上存在大量碎片 (>80%)，但实际上性能似乎相当不错。我有 read another post这建议在 wordpress/w3tc 中禁用对象缓存，但我想知道减少碎片是否比首先缓存
python - 高/低游戏 : ValueError
对于我的脚本类(class)，我们必须制作更高/更低的游戏。到目前为止，这是我的代码: import random seedVal = int(input("What seed should be u
apc - 高 APC 碎片重要吗？
我发现 APC 上存在大量碎片 (>80%)，但实际上性能似乎相当不错。我有 read another post这建议在 wordpress/w3tc 中禁用对象缓存，但我想知道减少碎片是否比首先缓存
python - 高/低游戏 : ValueError
对于我的脚本类(class)，我们必须制作更高/更低的游戏。到目前为止，这是我的代码: import random seedVal = int(input("What seed should be u
unicode - 高 unicode 代码点如何表示为两个代码点？
我已经 seen >2 字节的 unicode 代码点，如 U+10000 可以成对编写，如 \uD800\uDC00。它们似乎以半字节 d 开头，但我只注意到了这一点。这个 split Actio
javascript - 高(饼)图计算不正确
有人可以帮我理解为什么我的饼图百分比计算不正确吗？看截图: 根据我的计算，如 RHS 上所示，支出百分比应为 24.73%。传递给 Highcharts 的值如下:- 花费:204827099.36-
Mysql 高 CPU 使用率甚至优化配置
我阅读了有关该问题的所有答案，但我还没有找到任何解决方案。我有一个应用程序，由我的 api 服务器提供。 Wildfly 8.1 和 Mysql 5.6。当查看时间到来时(Wildfly 服务器连接
javascript - 高 Angular 圆圈周围的元素
我正在用选定的项目创建圆形导航。当用户单击任何项目时，它将移动到定义的特定点。一切都很好，除了当你继续点击项目时，当动画表现不同并且项目在 360 度圆中移动并且它被重置直到你重复场景时，我希望它

首页

博学

6Ren·AI

商城

c++ - 红黑高斯赛德尔和 OpenMP