c - 尽管处理器负载达到 100%，OMP 并行 for 并不会大幅加快循环速度-6ren

c - 尽管处理器负载达到 100%，OMP 并行 for 并不会大幅加快循环速度

转载作者：行者123 更新时间：2023-11-30 16:16:10

24

4

我正在尝试加快一些计算的速度，但尽管所有核心都忙于我的计算，但速度并没有太大提高。

在 Windows 10 64 位的 I7 7800(6 核、12 线程)上运行。

#include "omp.h"
int i;
int j;
double tempval1;
double tempval2;
double tempval3;
int col1=4;
int row1=37500000;
double *in1 = (double *)malloc(col1 * row1 * sizeof (double));
double *inim1 = (double *)malloc(col1 * row1 * sizeof (double));
double *in2 = (double *)malloc(col1 * row1 * sizeof (double));
double *inim2 = (double *)malloc(col1 * row1 * sizeof (double));
double *in8 = (double *)malloc(col1 * sizeof (double));


omp_set_num_threads(12);

    for (i = 0; i < col1; ++i)
    {
        tempval3=in8[i];// in8 individual for each column
        #pragma omp parallel for private(tempval1,tempval2),schedule(dynamic,16384)
        for (j = i * row1; j < ((i + 1) * row1); ++j)
        {
            //For each element of the matrix, multiply in1 with in2, both real and imaginary part, but beforehand add in8 to in2 (only real and without altering original in2)
            tempval1=inim1[j] * inim2[j];// 
            tempval2=in1[j] * inim2[j];// 
            in1[j]=in1[j] * (in2[j] + tempval3) - tempval1;// only add to in2 but not inim2 because in8 is not complex
            inim1[j]=inim1[j] * (in2[j] + tempval3) + tempval2;  
        }
    }

例如，col1 为 4，row1 为 37500000。使用 1 个核心时，我得到 0.23 秒，使用 2 个核心时，我得到 0.19 秒，使用 12 个核心时，我得到 0.163 秒，这甚至不是双倍速度。有或没有时间表或静态与动态时间表实际上没有任何区别。由于缺乏足够的内存，我无法为 in1 创建临时矩阵。错误共享不应该发生，因为 row1 数量如此之高，各个 block 应该相距很远，对吧？有人看出我这边有明显的错误吗？

最佳答案

我一眼注意到的唯一明显的错误是你假设多线程是无限制的。但事实并非如此。使用 4 个线程永远不会获得 4 倍的速度提升，因为初始化每个线程以及稍后合并它们都会产生成本。添加更多线程后，性能增益(以％为单位)往往会降低，这在测量中可以清楚地看到。为了更好地理解多线程的基本概念，您应该阅读一些基本的编程书籍。

我认为你应该尝试使用

#pragma omp for

带外循环的指令。 OMP 是高性能线程库，但程序员应该将其指令放在更好的位置，或者至少尝试不同的变体(如果没有明显的变体)。

根据我使用 OMP 的经验，omp_set_num_threads(12); 只是建议使用 12 个线程。

测量不同方法的速度是非常好的优化实践，您的方向是正确的。

关于c - 尽管处理器负载达到 100%，OMP 并行 for 并不会大幅加快循环速度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56733684/

24

4

0

文章推荐：使用 C openssl AES-GCM 加密创建 ESP 数据包会引发错误的 ICV

文章推荐： c - 无法从中断访问数组指针

文章推荐： c - docker 容器中的共享内存 ID 始终为 0

c - 确定运行线程的套接字/处理器
我为 4 套接字服务器的大对象( double 矩阵)编写 NUMA-aaware 缓存。我观察到套接字间通信是我的应用程序的瓶颈。因此，我希望不同套接字上的线程具有单独的矩阵缓存。我已将线程限制到特
C: JSON 处理器
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: Parsing JSON using C? 处理 JSON 的最佳 C 库是什么？ http://www.j
PHP Spintax 处理器
我一直在使用递归 SpinTax 处理器，如 here 所示, 它适用于较小的字符串。然而，当字符串超过 20KB 时，它开始耗尽内存，这就成了一个问题。如果我有这样的字符串: {Hello|How
c# - 编译时的目标平台/处理器
C# 中是否有一个#define 允许我在编译时知道我是针对 x86 (Win32) 还是针对 x64 (Win64) 进行编译？最佳答案默认情况下没有办法做到这一点。原因是 C# 代码不是针对特
architecture - 叶说明(处理器/程序集)
我不确定 SO 是否是提出这个问题的最佳场所。如果没有，请告诉我应该去哪个姊妹网站。我一直在阅读一篇关于英特尔的可信执行技术 (TXT) 的论文，其中包含以下我似乎无法理解的文字: “英特尔创建了一
xslt - 节省内存的 XSLT 处理器
我需要一个工具来针对执行 XSLT非常大 XML 文件。需要明确的是，我不需要任何东西来设计、编辑或调试 XSLT，只需执行它们即可。我正在使用的转换已经很好地优化了，但是大文件导致我尝试过的工具(
apache-camel - 处理器，组件和端点之间的区别
我正在学习Apache Camel。能否请您解释一下关于Apache Camel的处理器，组件和端点之间的区别。最佳答案我建议所有刚接触Apache Camel的人阅读这篇文章，它很好地解释了C
concurrency - 锁定 Camel 处理器
我想知道在 Camel 处理器上获得同步的方法。我在 docs 找到的唯一相关内容: Note that there is no concurrency or locking issue when
multithreading - 有没有办法在服务器级别强制停止 nifi 处理器？
我看到这个 https://issues.apache.org/jira/browse/NIFI-78在 jira 上，但它引用了 java。有没有办法将 nifi 进程映射到服务器上的线程，以便我可
java - react 器选择接收器/处理器
我有以下用例: 在一个应用程序中，我使用 X 线程消费一些消息，其中我有一个这样定义的 Consumer 实现: public interface Consumer { onMessage(
assembly - 不能使用 CPU12 处理器
CPU12 处理器中是否有提供简单 NOT 功能的代码？最佳答案这应该是 the datasheet您正在寻找。没有可用的logical NOT，您必须自己编写代码。关于assembly - 不
java - Oracle XSLT 处理器
我对 Oracle XDK 中包含的 Java XSLT 处理器与 Oracle DB 中嵌入并由 SQL XMLtransform 函数使用的 XSLT 处理器之间的关系感到困惑。这些是相同的野兽
java - 端点的 Camel 处理器
我正在试用 Camel，发现它是一个方便的端点集成工具。我已经设置了以下实验性应用程序: 第一个端点是一个简单的 http-get 请求(在命令行上使用 curl)。这与使用 Jetty 的中央交换机
java - 将未编码的对象传递给 Camel 处理器
我正在为一个应用程序使用 Apache Camel 和 Spring Boot。我需要从目录中读取数据，然后解码读取的 xml，然后处理解码的对象以在其中设置更多数据，然后再次对其进行编码并将其发送到
java - 扩展原生 NiFi 处理器
我已经知道如何编写自定义处理器(扩展org.apache.nifi.processor.AbstractProcessor)。我已经使用了这种技术，并且也可以轻松创建自定义 org.apache.ni
Python EasyList 处理器/解析器
是否有任何用 python 编写的 EasyList 处理器/解析器？ http://easylist.adblockplus.org/en/ 最佳答案找到了!就像一个月后:( http://adb
css - 浏览器 SCSS 处理器？
我有一个无法安装任何东西的开发(说来话长)。我只需要使用纯 HTML/浏览器 JS 进行开发，并且我想使用 CSS 预处理器。我喜欢 SCSS (SASS)，但为了使用它，我必须在我的机器上安装 ru
programming-languages - 特定于语言的架构/处理器
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
c - 如何开始使用 ARM 处理器？
对于新手来说，是直接从 ARM 处理器的数据表和用户手册开始，还是先了解一下 ARM 世界然后再继续？最佳答案当我开始使用一项(对我而言)新技术时，我首先会找到尽可能多的数据表和应用说明，然后直接
Android 模拟器系统镜像和 AMD 处理器
我使用 AMD FX X6 6300 型处理器。 (它支持虚拟化，我的 BIOS 设置为 ON) 我安装了“英特尔 x86 仿真器加速器”。当我尝试运行 Intel 加速器设置时，我得到该设置无法安装

首页

博学

6Ren·AI

商城

c - 尽管处理器负载达到 100%，OMP 并行 for 并不会大幅加快循环速度