- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我一直在研究 OpenMP,并试图弄清楚为什么将数组保持为共享而不是私有(private)时性能会下降。任何输入都会有所帮助。
当阵列共享时,运行大约需要 65 毫秒,而如果将其设为私有(private),则在 Intel Xeon E5540 CPU 上运行大约需要 38 毫秒。以下代码是在 Ubuntu 上用 GCC 4.4.3 编译的
我不认为这是由于错误共享造成的,因为只对数组元素执行了读取操作。
#define PI 3.14159265
#define large 1000000
double e[large];
int main() {
int i,j,k,m;
timeval t1,t2;
double elapsedtime;
omp_set_num_threads(16);
for(i=0;i<large;i++) {
e[i]=rand();
}
gettimeofday(&t1, NULL);
#pragma omp parallel for private(i) shared(e)
// #pragma omp parallel for private(i,e)
for(i=0;i<large;i++) {
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
}
gettimeofday(&t2, NULL);
elapsedtime = (t2.tv_sec*1000000 + t2.tv_usec) - (t1.tv_sec * 1000000 + t1.tv_usec);
printf("%f ",elapsedtime/1000);
return 0;
}
最佳答案
我决定摆脱全局变量。这是您的代码,在多个地方进行了修改。
//timings.cpp
#include <sys/time.h>
#include <cstdlib>
#include <stdio.h>
#include <math.h>
#include <omp.h>
#include <unistd.h>
#define PI 3.14159265
#define large 100000
int main() {
int i;
timeval t1,t2;
double elapsedtime;
bool b=false;
double e[large];
double p[large];
omp_set_num_threads(1);
for(i=0;i<large;i++) {
e[i]=9.0;
}
/* for(i=0;i<large;i++) {
p[i]=9.0;
}*/
gettimeofday(&t1, NULL);
#pragma omp parallel for firstprivate(b) private(i) shared(e)
//#pragma omp parallel for firstprivate(b) private(e,i)
for(i=0;i<large;i++) {
if (!b)
{
printf("e[i]=%f, e address: %p, n=%d\n",e[i],&e,omp_get_thread_num());
b=true;
}
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
}
gettimeofday(&t2, NULL);
elapsedtime = (t2.tv_sec*1000000 + t2.tv_usec) - (t1.tv_sec * 1000000 + t1.tv_usec);
printf("%f ",elapsedtime/1000);
return 0;
}
我们将通过脚本“1.sh”运行它以自动测量时间,
#/bin/bash
sed -i '/parallel/ s,#,//#,g' timings.cpp
sed -i '/parallel/ s,////#,#,g' timings.cpp
g++ -O0 -fopenmp timings.cpp -o timings
> time1.txt
for loopvar in {1..10}
do
if [ "$loopvar" -eq 1 ]
then
./timings >> time1.txt;
cat time1.txt;
echo;
else
./timings | tail -1 >> time1.txt;
fi
done
echo "---------"
echo "Total time:"
echo `tail -1 time1.txt | sed s/' '/'+'/g | sed s/$/0/ | bc -li | tail -1`/`tail -1 time1.txt| wc -w | sed s/$/.0/` | bc -li | tail -1
以下是测试结果(Intel@Core 2 Duo E8300):
1) #pragma omp parallel for firstprivate(b) private(i) shared(e)
user@comp:~ ./1.sh
Total time:
152.96380000000000000000
我们有奇怪的延迟。例如。输出:
e[i]=9.000000, e address: 0x7fffb67c6960, n=0
e[i]=9.000000, e address: 0x7fffb67c6960, n=7
e[i]=9.000000, e address: 0x7fffb67c6960, n=8
//etc..
注意地址 - 所有数组都相同(因此称为共享)
2) #pragma omp parallel for firstprivate(e,b) private(i)
user@comp:~ ./1.sh
Total time:
157.48220000000000000000
我们将数据 e (firstprivate) 复制到每个线程例如。输出:
e[i]=9.000000, e address: 0x7ff93c4238e0, n=1
e[i]=9.000000, e address: 0x7ff939c1e8e0, n=6
e[i]=9.000000, e address: 0x7ff93ac208e0, n=4
3) #pragma omp parallel for firstprivate(b) private(e,i)
Total time:
123.97110000000000000000
没有数据复制,只有分配(私有(private)未初始化使用)例如。输出:
e[i]=0.000000, e address: 0x7fca98bdb8e0, n=1
e[i]=0.000000, e address: 0x7fffa2d10090, n=0
e[i]=0.000000, e address: 0x7fca983da8e0, n=2
这里我们有不同的地址,但是所有的 e 值都包含内存垃圾(nills 可能是由于 mmap 内存页预分配)。
要看到,由于复制数组,firstprivate(e) 变慢了,让我们注释掉所有计算(带有“fmodf”的行)//#pragma omp parallel for firstprivate(b) private(i) shared(e)
Total time:
9.69700000000000000000
//#pragma omp parallel for firstprivate(e,b) private(i)
Total time:
12.83000000000000000000
//#pragma omp parallel for firstprivate(b) private(i,e)
Total time:
9.34880000000000000000
Firstprivate(e) 由于复制数组而变慢。由于计算行,Shared(e) 很慢。
使用 -O3 -ftree-vectorize 编译会稍微减少共享时间:
//#pragma omp parallel for firstprivate(b) private(i) shared(e)
user@comp:~ ./1.sh
Total time:
141.38330000000000000000
//#pragma omp parallel for firstprivate(b) private(e,i)
Total time:
121.80390000000000000000
使用 schedule(static, 256) 并不能解决问题。
让我们继续打开 -O0 选项。注释掉数组填充://e[i]=9.0;
//#pragma omp parallel for firstprivate(b) private(i) shared(e)
Total time:
121.40780000000000000000
//#pragma omp parallel for firstprivate(b) private(e,i)
Total time:
122.33990000000000000000
因此,“共享”速度较慢,因为“私有(private)”数据在未初始化的情况下使用(如评论者所建议)。
让我们看看对线程数的依赖:
4threads
shared
Total time:
156.95030000000000000000
private
Total time:
121.11390000000000000000
2threads
shared
Total time:
155.96970000000000000000
private
Total time:
126.62130000000000000000
1thread (perfomance goes down ca. twice, I have 2-core machine)
shared
Total time:
283.06280000000000000000
private
Total time:
229.37680000000000000000
为了用 1.sh 编译它,我手动取消了两个“parallel for”行,以给 1.sh 注释掉它们。
**1thread without parallel, initialized e[i]**
Total time:
281.22040000000000000000
**1thread without parallel, uninitialized e[i]**
Total time:
231.66060000000000000000
所以,这不是 OpenMP 问题,而是内存/缓存使用问题。用
生成asm代码g++ -O0 -S timings.cpp
在这两种情况下都给出了两个区别:一个是可以忽略的,在标签 LC 计数中,另一个是一个标签 (L3) 包含的不是 1,而是 5 个 asm 行,当初始化 e数组:
L3:
movl -800060(%rbp), %eax
movslq %eax, %rdx
movabsq $4621256167635550208, %rax
movq %rax, -800016(%rbp,%rdx,8)
(初始化发生的地方)和公共(public)线:addl $1, -800060(%rbp)
所以,这似乎是缓存问题。
这不是答案,您可以使用上面的代码进一步研究问题,
关于c++ - 在 OpenMP 中使用共享数据结构而不是私有(private)数据结构时的性能差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18958515/
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET,但 win32 native 可以)? 我想做的是创建类似 awstats 的东西对于 Windows 共享,这样我
是否可以列出 Intent.ACTION_SEND ?我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。 最佳答案 也许你想要一个更
我正在使用 Google Apps 应用程序。实际上,我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth,它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
我怎样才能只创建模拟器...可能吗?我知道,设备需要分发证书。 最佳答案 您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本,它就应该可以工作。 因此,如果您想分发 3.1.3
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。 我正在考虑在第一阶段解决 Maven 依赖项,然后在第二阶段构建应用程序,这将需要访问在前一阶段下
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件,这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat,并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。 我看过类似的帖子,
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针?` 为什么这不起作用?自动测试 = Singleton::Instance(); class Singleton { public: st
我有一个 heroku 项目,我想与其他人分享。作为the instructions describe ,我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。 那么,是否可以由多个用户共享这个本地存储库,或许在不同的目录结构下? 最佳答案 简单的回答
为什么共享 worker 在重新加载页面时死了?应该是复活了我该如何解决这个问题? 重装前 重新加载后(在example.com上按F5) parent worker var port = new S
我正在开发多个小型应用程序,这些应用程序将共享通用和共享模块和 Assets 。 关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
我在 RHEL 上安装了 jenkins (localhost:8080),我能够成功地构建代码 现在,我想设置主/从代理。 我的笔记本电脑将充当“Master Jenkins”,而我同事的笔记本电脑
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
我正在使用 R 中的一个数据分析项目,我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了 。预订 包,我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
我有多个应用程序,我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
我有多个 Electron 应用程序。一个是主应用程序,其他几个功能应用程序。主应用程序上的按钮很少,这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程,该进程导致要利用更多的CPU。是
我正在开发一个 Node.js 后端,它通过 websocket 与一些桌面客户端进行通信,而服务器端的通信是从 Web 前端发起的。一切正常,因为我将 SockJS Connection 实例存储在
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。 我为每个用户帐户使用相同的私钥。 (因为我很懒?或者那是“正确”的方式)。 我现在想授权该国不同地区
我是一名优秀的程序员,十分优秀!