c++ - OpenMP 和 C++ 并行 for 循环 : why does my code slow down when using OpenMP?-6ren

c++ - OpenMP 和 C++ 并行 for 循环 : why does my code slow down when using OpenMP?

转载作者：塔克拉玛干更新时间：2023-11-03 01:30:39

25

4

我有一个关于使用 OpenMP(与 C++)的简单问题，我希望有人能帮助我。我在下面提供了一个小示例来说明我的问题。

#include<iostream>
#include<vector>
#include<ctime>
#include<omp.h>

using namespace std;

int main(){
  srand(time(NULL));//Seed random number generator                                                                               

  vector<int>v;//Create vector to hold random numbers in interval [0,9]                                                                                   
  vector<int>d(10,0);//Vector to hold counts of each integer initialized to 0                                                                    

  for(int i=0;i<1e9;++i)
    v.push_back(rand()%10);//Push back random numbers [0,9]                                                                      

  clock_t c=clock();

  #pragma omp parallel for
  for(int i=0;i<v.size();++i)
    d[v[i]]+=1;//Count number stored at v[i]                                                                                     

  cout<<"Seconds: "<<(clock()-c)/CLOCKS_PER_SEC<<endl;

  for(vector<int>::iterator i=d.begin();i!=d.end();++i)
  cout<<*i<<endl;

  return 0;
}

上述代码创建了一个 vector v，其中包含 [0,9] 范围内的 10 亿个随机整数。然后，代码循环遍历 v，计算每个不同整数的实例数量(即，在 v 中找到了多少个，有多少两个，等等)

每次遇到特定整数时，都会通过递增 vector d 的适当元素来对其进行计数。因此，d[0] 计算了多少个零，d[6] 计算了多少个六，等等。到目前为止有意义吗？

我的问题是当我试图使计数循环并行时。如果没有 #pragma OpenMP 语句，我的代码需要 20 秒，但是使用 pragma 需要超过 60 秒.

显然，我误解了一些与 OpenMP 相关的概念(可能是如何共享/访问数据？)。有人可以解释我的错误，或者用适当的关键字为我指出一些有见地的文献的方向以帮助我进行搜索吗？

最佳答案

您的代码展示:

由于对共享变量的未同步访问而导致的竞争条件
真假共享缓存问题
错误的运行时间测量

出现竞争条件是因为您在多个线程中同时更新 vector d 的相同元素。注释掉 srand() 行并使用相同数量的线程(但不止一个线程)多次运行您的代码。比较不同运行的输出。

当两个线程写入彼此靠近的内存位置以导致同一缓存行时，就会发生错误共享。这会导致缓存行在多路系统中不断地从一个内核跳到另一个内核或从一个 CPU 跳到另一个 CPU，并且缓存一致性消息过多。每个缓存行 32 个字节， vector 的 8 个元素可以放在一个缓存行中。每个缓存行 64 字节，整个 vector d 适合一个缓存行。这使得代码在 Core 2 处理器上变慢，在 Nehalem 和后 Nehalem(例如 Sandy Bridge)处理器上稍微慢一些(但不像 Core 2 慢)。真正的共享发生在那些被两个或多个线程同时访问的元素上。您应该将增量放在 OpenMP atomic 构造中(慢)，使用一组 OpenMP 锁来保护对 d 元素的访问(更快或更慢，具体取决于您的OpenMP 运行时)或累积本地值，然后进行最终的同步缩减(最快)。第一个是这样实现的:

#pragma omp parallel for
for(int i=0;i<v.size();++i)
  #pragma omp atomic
  d[v[i]]+=1;//Count number stored at v[i]

第二个是这样实现的:

omp_lock_t locks[10];
for (int i = 0; i < 10; i++)
  omp_init_lock(&locks[i]);

#pragma omp parallel for
for(int i=0;i<v.size();++i)
{
  int vv = v[i];
  omp_set_lock(&locks[vv]);
  d[vv]+=1;//Count number stored at v[i]
  omp_unset_lock(&locks[vv]);
}

for (int i = 0; i < 10; i++)
  omp_destroy_lock(&locks[i]);

(包含 omp.h 以访问 omp_* 函数)

第三个选项的实现由您来决定。

您正在使用 clock() 测量耗时，但它测量的是 CPU 时间，而不是运行时间。如果您有一个线程以 100% 的 CPU 使用率运行 1第二，然后 clock() 将指示 CPU 时间增加 1 秒。如果您有 8 个线程以 100% 的 CPU 使用率运行 1 秒，clock() 将指示 increate in CPU 时间为 8 秒(即 8 个线程乘以每个线程 1 个 CPU 秒)。请改用 omp_get_wtime() 或 gettimeofday()(或其他一些高分辨率计时器 API)。

关于c++ - OpenMP 和 C++ 并行 for 循环 : why does my code slow down when using OpenMP?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11652840/

25

4

0

文章推荐： c++ - 如何将对象 move 到未初始化的内存中？

文章推荐： linux - 每次系统启动时更改墙纸的 Shell 脚本

文章推荐： linux - 文本 block 内的 tesseract 整数识别

文章推荐： c++ - boost shared_ptr的底层设计

javascript - fadein/out slow 没有 "slow"效果
下面的代码应该淡入淡出。我究竟做错了什么？ $(window).scroll(function(){ if ($(window).scrollTop() > 910){ $('
Java Swing 小程序 : How to slow or delay paint() without slowing down the entire program
我正在 java swing applet 上创建一个 whack a mole 游戏，但我在计时 mole 出现时遇到了问题。我似乎无法避免 paint () 在我身上循环，从而过快地随机化地鼠的坐
powershell远程处理: very slow
如果我从solaris服务器ssh到美国服务器，ssh连接很快，比如删除一个文件很快就可以完成。但是为什么powershell远程处理这么慢，我进入远程 session 后，然后删除一个项目，需要1
Java和SQL查询: slowness
我正在获取一个 Java 小程序来填充数据库。我在 HP i3 ram6gb 上使用 JDK 1.7 和 XAMPP 3.2.1 32 位。我的数据库很大并且具有以下结构: [TABLE] attr
c++ - 做一个循环 "slow down"
我正在使用 OpenGL 在 C++ 中制作塔防游戏。当尝试使用 Windows.H 中的“ sleep ”功能时，它会导致我的 OpenGL 窗口打开我输休眠眠的任何值的总时间，然后打开窗口。有什么
jquery - 如何通过切换使其更平滑 ('slow' )
我有以下代码，它可以工作，但在每个切换操作结束时变得有点跳动。切换段落会不会更流畅？我正在尝试获取该段落，但我不知道该怎么做。 body {width: 660px; margin: 0 aut
c# - 为什么这个单元测试如此 "slow"
我在想这个。我创建了一个 Complex 类只是为了好玩(用于存储复数)并习惯于 TDD。并且我编写了以下测试: [TestMethod] [TestCategory("COMPLE
屏幕关闭时的 Android "slows down"
我正在开发一款每 30 秒向互联网发布一次的应用程序。一切正常，直到屏幕熄灭。计时器似乎变慢了。发布需要大约 5 分钟。我已经尝试获取唤醒锁和 setforegroundactivity 但没有任何效
mysql - 从另一个表更新新列 : too slow
我有一个很大的表，我决定通过从另一个表中引入一个带有 ID 的新列并删除另外两个列来减小它的大小。以下是表格: Table tests: +---------------+--------------
安卓工作室 : testing is slow
每次我想对一些代码进行快速测试时，android studio 需要 20-40 分钟来加载一个模拟器，这导致我的笔记本电脑崩溃或运行速度非常慢。有什么方法可以只使用系统日志而不加载整个应用程序，类似
python - 基于语言测试的阿拉伯语句子过滤列表 : Why so slow?
我正在尝试查看(主要是)阿拉伯语句子列表，并删除那些不是阿拉伯语的句子。我有一个判断字符是否为阿拉伯语的技巧:阿拉伯语没有大小写，所以如果字符是字母但不是大写或小写，它就是阿拉伯语。我有下面的代码，
c++ - "Slowing"输出
我有一个问题，我不知道怎么解释好，但我会尝试......例如，在某些游戏中，文本输出“慢”，一个接一个地写char，而不是所有的一次短语......那么，我怎样才能复制这种行为？我想这样......
Java 反射 : Why is it so slow?
基于 Java 反射慢的名声，我一直避免使用它。我在当前项目的设计中达到了一个点，能够使用它会使我的代码更具可读性和优雅，所以我决定试一试。我只是对差异感到惊讶，我注意到有时运行时间几乎长了 100
MySQL开启慢查询日志log-slow-queries的方法
一个普通WEB站点的页面常常需要查询N条SQL语句后才能得出页面结果，当网站访问速度慢而前端做了大量优化工作以后，数据库瓶颈的查找也是WEB优化的一个重要部分。 MySQL中提供了一个
五款常用mysql slow log分析工具的比较分析
启用 slow log 有两种启用方式: 1, 在my.cnf 里通过 log-slow-queries[=file_name] 2, 在mysqld进程启动时,指定--lo
python - numpy.vectorize : Why so slow?
scipy.special 中的 expit 函数是一个向量化的 sigmoid 函数。它计算 1/(1+e^(-x))，这很复杂，可能涉及泰勒级数。我了解了“快速 sigmoid”，1/(1 +
python - tensorflow : slow startup
我使用 PyCharm，我是 python 的新手。经过 2 天弄清楚 tensorflow 的工作原理后，我成功了，但启动时间很慢。在句子之前一切正常:'Adding visible gpu de
security - HTTP Slow Post和IIS设置可防止
因此，我们从一家安全公司获得了此报告，称我们在IIS 8.0上运行的MVC网站容易受到缓慢的HTTP post DoS攻击的攻击。报告说我们应该限制请求属性是通过元素实现的，特别是maxAllow
performance - 如何量化你的 "slow"开发机？
(请提供这个重复的问题。我很失望我找不到它。) 我的开发机器“慢”。我等待它“很多”。想要帮助公平、准确地衡量那个时间的决策者曾问过我。您如何量化您在计算机上等待的时间(在编译期间，每天等待应用程序
Jquery fadein 'slow' 太快
我正在使用 jquery fadein fadeout 和慢速选项，但它对我来说仍然有点太快了。现在我读到你只能在快和慢之间进行选择，但是有没有办法让它变慢呢？最佳答案你有两个选择。第一种是在调用

首页

博学

6Ren·AI

商城

c++ - OpenMP 和 C++ 并行 for 循环 : why does my code slow down when using OpenMP?