multithreading - 4 插槽 NUMA 系统上的矩阵乘法效率低下-6ren

multithreading - 4 插槽 NUMA 系统上的矩阵乘法效率低下

转载作者：行者123 更新时间：2023-12-03 13:00:16

26

4

我正在开发密集矩阵乘法代码(https://github.com/zboson/gemm)来学习并行编程。我使用 OpenMP 进行线程处理。我的系统有四个插槽，每个插槽都配备 Xeon E5-1620 处理器。每个处理器有 10 个内核/20 个超线程。所以总共是 40 个内核/80 个超线程。当我在一个线程上运行我的代码时，我得到了大约 70% 的峰值触发器(19.2 GFLOPS 中的 13 个)。然而，当我使用 40 个线程运行我的代码时，我只得到了大约 30% 的峰值触发器(682.56 GFLOPS 中的 185 个)。在一个只有一个插槽和 4 个内核的单独系统(Sandy Bridge)上，我可以通过四个线程获得大约 65% 的效率。

我将线程绑定(bind)到每个物理内核 using system calls .我尝试禁用此功能并改用 export OMP_PROC_BIND=true或 export GOMP_CPU_AFFINITY="0 4 8 12 16 20 24 28 32 36 1 5 9 13 17 21 25 29 33 37 2 6 10 14 18 22 26 30 34 38 3 7 11 15 19 23 27 31 35 39"但这些没有什么区别。我仍然可以获得大约 30% 的效率(尽管使用其他不良绑定(bind)设置可能会获得更差的效率)。

我还能做些什么来提高效率？ 我了解 first touch policy被使用，因此内存页面由第一个接触它们的线程分配。当我写出矩阵乘积时，也许我应该为每个套接字制作一个单独的输出，然后最后合并每个套接字的结果？

我正在使用带有 Linux 64 位内核 2.6.32 的 GCC 4.8.0

编辑:我使用以下绑定(bind)矩阵大小 = 2048x2048

export GOMP_CPU_AFFINITY="0 4 8 12 16 20 24 28 32 36 1 5 9 13 17 21 25 29 33 37 2 6 10 14 18 22 26 30 34 38 3 7 11 15 19 23 27 31 35 39"

这应该有线程 0-9 -> 节点 0、10-19 节点 1、20-29 节点 2、30-39 节点 3。

有了这个绑定(bind)，我得到:

 nthread    efficiency    node
 1          77%           0
 2          76%           0
 4          74%           0
 6          62%           0
 8          64%           0
10          52%           0
14          50%           0+1
16          30%           0+1

最佳答案

有理由怀疑效率下降也是因为过多的跨套接字通信。但是设置线程亲和性并不足以避免这些通信，它应该在算法级别上解决，例如以最小化跨numa节点交互的方式划分工作。最好的方法是在 cache-oblivious way 中实现它。，例如不是按行或列，而是按二维图 block 平行。

例如，您可以使用 tbb::parallel_for与 blocked_range2d为了更有效地使用缓存。

更高级别的并行性降低的效率也可能表明没有足够的工作来证明同步的开销是合理的。

关于multithreading - 4 插槽 NUMA 系统上的矩阵乘法效率低下，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25055604/

26

4

0

文章推荐： multithreading - COM接口(interface): Using STA instead of MTA

文章推荐： multithreading - 持有锁时可以在上下文中切换线程吗？

java - 系统.out.println , 系统.err.println
我有这个代码: System.err.print("number of terms = "); System.out.println(allTerms.size()); System.err
java - 我可以使用 Ant 检测我是否在 Linux 系统(而不是通用 Unix 系统)上吗？
我有以下问题:在操作系统是 Linux 的情况下和在操作系统是 MacOs 的情况下，我必须执行不同的操作。所以我创建了以下 Ant 脚本目标: /u
系统()奇怪行为后关闭()
我正在调用 system("bash ../tools/bashScript\"This is an argument!\"&")，然后我正在调用 close(socketFD) 直接在 system
系统 verilog 中数组的约束
使用最初生成的随机元素来约束随机数组的连续元素是否有效。例如:我想生成一组 10 个 addr、size 对来模拟典型的内存分配例程并具有如下类: class abc; rand bit[5:0
cocoa 系统()进展？
我正在创建一个必须使用system(const char*)函数来完成一些“繁重工作”的应用程序，并且我需要能够为用户提供粗略的进度百分比。例如，如果操作系统正在为您移动文件，它会为您提供一个进度条，
architecture - 您如何描述您的解决方案/系统？
我即将编写一些项目经理、开发人员和业务分析师会使用的标准/指南和模板。目标是更好地理解正在开发或已经开发的解决方案。其中一部分是提供有关记录解决方案的标准/指南。例如。记录解决/满足业务案例/用户需
performance - 系统/操作系统缓存与应用程序缓存
在开发使用压缩磁盘索引或磁盘文件的应用程序时，其中部分索引或文件被重复访问(为了论证，让我们说一些类似于 Zipfian 分布的东西)，我想知道什么时候足够/更好地依赖操作系统级缓存(例如，Debia
Powershell "plugin"系统
我们编写了一个 powershell 脚本，用于处理来自内部系统的图像并将其发送到另一个系统。现在，业务的另一部分希望加入其中，对数据进行自己的处理，并将其推送到另一个系统。打听了一下，公司周围有几个
c# - 系统.ApplicationException
我正在尝试朗姆酒我的应用程序，但我收到以下错误:System.Web.HttpUnhandledException:引发了“System.Web.HttpUnhandledException”类型的异
javascript - 为如何使用您的网站制作教程的产品/系统
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
c - “系统”未在此范围内声明错误
所以我在其他程序中没有收到此错误，但我在这个程序中收到了它。这个程序是一个我没有收到错误的示例。 #include int main() { system("pause"); } // en
c# - 系统.UriFormatException
我在 c# System.URI.FormatExption 中遇到问题为了清楚起见，我使用的是 Segseuil 的 Matlab 方法，并且它返回一个图片路径 result。我想为其他用户保存此
c# - 系统.图纸引用
我正在尝试像这样设置文本框的背景色: txtCompanyName.BackColor = Drawing.Color.WhiteSmoke; 它不喜欢它，因为它要我在前面添加系统，例如: txtCo
c# - 系统.StackOverflowException
请帮助我解决 System.StackOverflowException我想用 .aspx 将记录写入数据库我使用 4 层架构来实现这一切都正常但是当我编译页面然后它显示要插入数据的字段时，当我将数据
Android 系统 API
我使用了一些通常由系统调用的API。因此，我将 android:sharedUserId="android.uid.system" 添加到 manifest.xml，并使用来自 GIT 的 And
java - 从应用程序重新安装/系统
我正在尝试创建一个小型应用程序，它需要对/system 文件夹进行读/写访问(它正在尝试删除一个文件，并创建一个新文件来代替它)。我可以使用 adb 毫无问题地重新挂载该文件夹，如果我这样做，我的应用
java - 从系统应用程序重新安装/系统；
我想从没有 su 的系统 priv-app 将/system 重新挂载为 RW。如何以编程方式执行此操作？只会用 Runtime.getruntime().exec() 执行一个 shell 命令吗
c# - 系统。无效操作异常
我正在尝试制作一个带有登录系统的程序我对此很陌生，但我已经连续工作 8 个小时试图解决这个问题。这是我得到的错误代码 + ServerVersion 'con.ServerVersion' threw
c++ - 系统()调用流文件的批处理可执行文件使程序在Windows上重置
当我“构建并运行”Code::Blocks 中的程序时，它运行得非常好!但是当我从“/bin”文件夹手动运行它时，当它试图用 system() 调用“temp.bat”时，它会重置。这是为什么？它没有
c++ - 系统/管道调用更改传递给执行的命令中的特殊字符
我想使用 system/pipe 命令来执行具有特殊字符的命令。下面是示例代码。通过系统/管道执行命令后，它通过改变特殊字符来改变命令。我很惊讶地看到系统命令正在更改作为命令传递的文本。 run(ch

首页

博学

6Ren·AI

商城

multithreading - 4 插槽 NUMA 系统上的矩阵乘法效率低下