language-agnostic - 使用OpenMP的多个并行级别-可能吗？聪明的？实际的？-6ren

language-agnostic - 使用OpenMP的多个并行级别-可能吗？聪明的？实际的？

转载作者：行者123 更新时间：2023-12-04 20:23:57

25

4

我目前正在为我管理的仿真工具开发C++稀疏矩阵/数学/迭代求解器库。我本来希望使用现有的程序包，但是，经过广泛的调查，没有一个适合我们的模拟器(我们查看了flens，it++，PetSC，eigen和其他几个程序)。好消息是我的求解器和稀疏矩阵结构现在非常高效且健壮。坏消息是，我现在正在研究使用OpenMP的并行化，学习曲线有些陡峭。

我们求解的域可以分为子域，它们以块对角线格式组合在一起。因此，我们的存储方案最终看起来像是一组较小的方形矩阵(块[])，每个矩阵都具有适合子域的格式(例如，压缩行存储:CRS，压缩对角线存储:CDS，密集等)，和背景矩阵(当前使用CRS)说明子域之间的连通性。

大多数(所有？)迭代求解器中的“热点”是矩阵向量乘法运算，这对我的库来说是正确的。因此，我一直专注于优化MxV例程。对于块对角线结构，M * x = b的伪代码如下:

b=background_matrix*x
start_index = 1;
end_index = 0;
for(i=1:number of blocks) {
    end_index=start_index+blocks[i].numRows();
    b.range(start_index, end_index) += blocks[i] * x.range(start_index, end_index);
    start_index = end_index+1;
}

其中background_matrix是背景(CRS)矩阵，block是子域矩阵的数组，.range返回矢量的一部分，从开始索引到结束索引。

显然，循环可以(并且已经)并行化，因为操作独立于循环的其他迭代(范围不重叠)。因为在一个典型的系统中我们有10-15个块，所以4个以上的线程实际上会产生很大的不同。

并行化被认为是一个不错的选择的另一个地方是每个子域存储方案的MxV操作(上述代码的第1行和第6行中的调用)。关于并行化CRS，CDS和密集矩阵MxV操作，有很多方法可以解决。通常情况下，使用2个线程可以看到不错的提升，随着添加更多线程， yield 将大大减少。

我正在构想一个方案，其中在上面的代码的块循环中将使用4个线程，而这些线程中的每个线程将在子域求解中使用2个线程。但是，我不确定使用OpenMP如何管理线程池-是否可以限制openmp for循环中的线程数？在实践中，这种多级并行性是否有意义？对于我在这里提出的任何其他想法，将不胜感激(并感谢您一直以来的阅读!)

最佳答案

请注意，我描述的所有内容都取决于实现。

是否可以限制openmp for循环中的线程数？

是的。有不同的方法可以做到这一点。设置omp_set_nested(1);并在外部循环中使用类似#pragma omp parallel for num_threads(4)或类似内容的内容，在内部循环中使用#pragma omp parallel for num_threads(2)指令。这应该给您8个线程(取决于实现，如果内核少于8个，则可能还必须设置OMP_THREAD_LIMIT)

另外，您也可以手动展开循环，例如使用类似

#pragma omp parallel sections {
     #pragma omp section 
     do your stuff for the first part, nest parallel region again
     #pragma omp section 
     and so on for the other parts
}

您有时可以使用 #pragma omp task在OpenMP 3.0中更有效地执行相同的操作。

或者，您启动8个线程并在并行部分中获取当前线程号，然后根据线程号手动进行调度。

最后，如果您有一个完美嵌套的循环(一个循环是完美嵌套的，如果实际分配仅发生在最内部的循环中)，则可以将所有内容重写为一个循环。基本上将两个迭代器 i和 j打包到一个大迭代器 (i, j)中。请注意，这可能会减少局部性，因此会降低性能

在实践中，这种多级并行性是否有意义？

这要看情况，而且您必须找出自己的位置。通常，多级并行处理使您的问题更具可扩展性。但是，调度可能会更加复杂。这个 paper可能很有趣。

关于手动设置线程数:设置线程数的主要优点是，可以在调度时使用有关问题的特定知识。
因此，您可以减少开销并获得正在执行的代码的较高局部性，从而增加缓存命中次数，减少主内存I/O。

手动设置嵌套并行性中的线程数的主要缺点是，最内层循环中的线程可能会在隐式屏障处闲置等待，而其他工作可能会完成( example)。而且，粗粒度并行度不能很好地扩展。因此，如果您的外循环在循环内的运行时非常不同，则您希望比仅拆分为4个线程更灵活地进行调度。

其他想法

您是否想通过SIMD执行MxV。根据体系结构，这可以使速度提高2-4。我迅速为您搜索了这个 presentation。

对于MxV， loop tiling， register and cache blocking和相关技术可以增加数据的位置并减少其他问题，例如虚假分享。第11章 book(您可以预览)可能会为您提供有关如何重组数据访问的其他一些想法。

关于language-agnostic - 使用OpenMP的多个并行级别-可能吗？聪明的？实际的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3159733/

25

4

0

文章推荐： svn - 仅将某些 SVN 修订版从一个存储库复制到另一个存储库

文章推荐： jsf - p :calendar 中的 MM/dd/yyyy 格式

文章推荐： rdbms - 现实应用程序中每个功能有多少个联接？

language-agnostic - 移植和迁移在编程上有区别吗？
在嵌入式系统编程的上下文中是否存在普遍差异？最佳答案这些不是正式的术语，所以这是相当主观的。迁移意味着将您的代码库移动到另一个系统(无意返回)。这也可能意味着切换到另一个工具链或编程语言。移植
language-agnostic - 如何用堆栈模拟递归？
听说任何递归算法都可以用栈来表示。最近，我一直在一个可用调用堆栈非常小的环境中编写程序。我需要做一些深度递归，所以我想知道如何重新设计任何递归算法以使用显式堆栈。例如，假设我有这样一个递归函数 f
language-agnostic - 数字是否在所有文本编码中都按顺序表示？
这个问题与语言无关，但受到这些 c/c++ 问题的启发。 How to convert a single char into an int Char to int conversion in C 假设
language-agnostic - 我如何在运行时生成和执行机器代码？
我最接近汇编的是构建我自己的 Java 类库，它加载类文件并允许您创建、编译和反编译类。在努力完成这个项目时，我想知道 Java 虚拟机实际上是如何在 JIT 优化期间在运行时生成 native 机器
language-agnostic - 半字节在编程中的使用
如标题所说的简单问题。我在 StackOverflow(和互联网)上看到了一些关于半字节用例的问题，但我不明白为什么我们需要使用半字节。我的意思是字节是计算中最小的内存单位，因此对它执行操作来操作它的
language-agnostic - 关于在多行条件表达式中放置逻辑运算符的建议
这真是一个详细的格式问题，但我每次都被它绊倒...... 对于多行条件表达式，逻辑运算符的首选位置是什么？备选方案 1:每行末尾的逻辑运算符 if (value1 == comparision1 &
language-agnostic - 哪些图书馆可以正确计算秒数以及哪些日期？
计算“2021-01-01 12:56:23.423 UTC”和“2001-01-01 00:00:00.000 UTC”之间的 SI 秒数” 为例。最佳答案 C++20 可以用下面的语法来完成:
language-agnostic - 函数中的抽象层次
我正在读一本名为“干净的代码”的书，当作者试图讲述我们如何编写一个高效的函数时卡住了。他说，“为了确保我们的函数做”一件事， “我们需要确保我们函数中的语句都处于同一抽象级别”。那么作者究竟想通过抽象
language-agnostic - 让浏览器缓存图片
我的网站上有一张相当大的图片(大约 200kb)。我没有计划在不久的将来改变它。我如何告诉浏览器缓存它？最佳答案设置正确的标题对您有很大帮助。过期时间:2012 年 4 月 15 日星期四 20
language-agnostic - 重构工具的优缺点
一般来说，重构工具的优缺点是什么？最佳答案优势如果工具对您有帮助，您更有可能进行重构。一个工具更有可能在第一次正确地进行“重命名”类型重构。一个工具可以让您在代码库上进行重构，而无需手动进行
language-agnostic - 新程序员的玩具项目
当我第一次开始自学编程时，在完成教程后，我会觉得我仍然无法用语言做任何事情。所以，我环顾四周，想找点事情做。由于我刚刚学习了一些基础知识，因此查找、阅读和添加到一个开源项目中所涉及的工作量似乎是无法克
language-agnostic - 为什么以析取范式表达代码很重要？
在我工作的公司，最近要求所有“高度可见”的 bool 逻辑必须以析取范式表示。例如(尽管这个概念与语言无关)， #if (defined(A) || defined( B )) || (define
language-agnostic - 如何表示魔方
我想知道我们如何在 mathematica 中设计一个魔方。这可能吗？我们如何使用它。我们如何决定立方体的 6 个面上的较小立方体的不同分隔。最佳答案您问的是如何定义数据结构。您的选择是任意的，只
language-agnostic - 系统托盘应用标准
对于具有系统托盘图标的应用程序的行为方式，是否有任何标准？我最近编写了一个应用程序，它大部分时间都位于系统托盘中。我把它交给了一个 friend ，她的第一 react 是双击图标进入主窗口(工作正
language-agnostic - 可分发软件的版权和合理使用
一个商业可分发软件的文本长度和/或音频片段长度是多少才能通过合理使用的阈值并侵犯所包含作品的版权？归属是否可以免除开发者的侵权行为？一个例子是在启动屏幕上使用的小说中的引用。最佳答案不幸的是，没有
language-agnostic - 开发者常用哪些技术来快速建站？
我是一名经验丰富的 C/C++/C#/Objective-C 桌面、Web 和移动程序员，我已经习惯于从头开始构建我的大部分软件。我已经使用 ASP.NET 从头开始构建了我的所有网站。对于我想测
language-agnostic - 用矩阵变换3D向量的方法
我一直在阅读有关使用矩阵转换 Vector3 的内容，并且正在努力深入研究数学并自己编写代码而不是使用现有代码。无论出于何种原因，我的学校类(class)从未包括矩阵，所以我正在填补我的知识空白。谢天
language-agnostic - 递归的相关性
所以我目前正在尝试掌握递归的概念，我理解我遇到的大部分问题，但我觉得它的使用似乎不适用于太多计算问题。不过，这只是一个新手的假设，所以我问，作为程序员，递归有很多实际用途吗？还有，用它可以解决哪些典型
language-agnostic - 规划问题的递归解决方案的最佳方法是什么？
我正在学习递归。我已经使用递归解决了一些其他问题，例如创建二叉树、汉诺塔等。所以，我明白什么是递归，但我发现自己很难规划和实现正确的递归解决方案。是否有任何关于规划、思考或实现问题递归解决方案的一般
language-agnostic - 在虚拟机中运行我的开发工具的建议
每次我需要移动到一台新机器，或者买一台笔记本电脑，或者通过不断的安装和卸载搞砸我的注册表时，我开始变得非常厌烦和厌倦设置我的所有开发工具。这么新的计划。我听说有人虚拟化他们的开发环境，这听起来是个好

首页

博学

6Ren·AI

商城

language-agnostic - 使用OpenMP的多个并行级别-可能吗？聪明的？实际的？