- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我一直在研究 OpenMP,并试图弄清楚为什么将数组保持为共享而不是私有(private)时性能会下降。任何输入都会有所帮助。
当阵列共享时,运行大约需要 65 毫秒,而如果将其设为私有(private),则在 Intel Xeon E5540 CPU 上运行大约需要 38 毫秒。以下代码是在 Ubuntu 上用 GCC 4.4.3 编译的
我不认为这是由于错误共享造成的,因为只对数组元素执行了读取操作。
#define PI 3.14159265
#define large 1000000
double e[large];
int main() {
int i,j,k,m;
timeval t1,t2;
double elapsedtime;
omp_set_num_threads(16);
for(i=0;i<large;i++) {
e[i]=rand();
}
gettimeofday(&t1, NULL);
#pragma omp parallel for private(i) shared(e)
// #pragma omp parallel for private(i,e)
for(i=0;i<large;i++) {
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
}
gettimeofday(&t2, NULL);
elapsedtime = (t2.tv_sec*1000000 + t2.tv_usec) - (t1.tv_sec * 1000000 + t1.tv_usec);
printf("%f ",elapsedtime/1000);
return 0;
}
最佳答案
我决定摆脱全局变量。这是您的代码,在多个地方进行了修改。
//timings.cpp
#include <sys/time.h>
#include <cstdlib>
#include <stdio.h>
#include <math.h>
#include <omp.h>
#include <unistd.h>
#define PI 3.14159265
#define large 100000
int main() {
int i;
timeval t1,t2;
double elapsedtime;
bool b=false;
double e[large];
double p[large];
omp_set_num_threads(1);
for(i=0;i<large;i++) {
e[i]=9.0;
}
/* for(i=0;i<large;i++) {
p[i]=9.0;
}*/
gettimeofday(&t1, NULL);
#pragma omp parallel for firstprivate(b) private(i) shared(e)
//#pragma omp parallel for firstprivate(b) private(e,i)
for(i=0;i<large;i++) {
if (!b)
{
printf("e[i]=%f, e address: %p, n=%d\n",e[i],&e,omp_get_thread_num());
b=true;
}
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
fmodf((exp(log((sin(e[i]*PI/180)+cos((e[i]*2)*PI/180))*10))*PI),3.0);
}
gettimeofday(&t2, NULL);
elapsedtime = (t2.tv_sec*1000000 + t2.tv_usec) - (t1.tv_sec * 1000000 + t1.tv_usec);
printf("%f ",elapsedtime/1000);
return 0;
}
我们将通过脚本“1.sh”运行它以自动测量时间,
#/bin/bash
sed -i '/parallel/ s,#,//#,g' timings.cpp
sed -i '/parallel/ s,////#,#,g' timings.cpp
g++ -O0 -fopenmp timings.cpp -o timings
> time1.txt
for loopvar in {1..10}
do
if [ "$loopvar" -eq 1 ]
then
./timings >> time1.txt;
cat time1.txt;
echo;
else
./timings | tail -1 >> time1.txt;
fi
done
echo "---------"
echo "Total time:"
echo `tail -1 time1.txt | sed s/' '/'+'/g | sed s/$/0/ | bc -li | tail -1`/`tail -1 time1.txt| wc -w | sed s/$/.0/` | bc -li | tail -1
以下是测试结果(Intel@Core 2 Duo E8300):
1) #pragma omp parallel for firstprivate(b) private(i) shared(e)
user@comp:~ ./1.sh
Total time:
152.96380000000000000000
我们有奇怪的延迟。例如。输出:
e[i]=9.000000, e address: 0x7fffb67c6960, n=0
e[i]=9.000000, e address: 0x7fffb67c6960, n=7
e[i]=9.000000, e address: 0x7fffb67c6960, n=8
//etc..
注意地址 - 所有数组都相同(因此称为共享)
2) #pragma omp parallel for firstprivate(e,b) private(i)
user@comp:~ ./1.sh
Total time:
157.48220000000000000000
我们将数据 e (firstprivate) 复制到每个线程例如。输出:
e[i]=9.000000, e address: 0x7ff93c4238e0, n=1
e[i]=9.000000, e address: 0x7ff939c1e8e0, n=6
e[i]=9.000000, e address: 0x7ff93ac208e0, n=4
3) #pragma omp parallel for firstprivate(b) private(e,i)
Total time:
123.97110000000000000000
没有数据复制,只有分配(私有(private)未初始化使用)例如。输出:
e[i]=0.000000, e address: 0x7fca98bdb8e0, n=1
e[i]=0.000000, e address: 0x7fffa2d10090, n=0
e[i]=0.000000, e address: 0x7fca983da8e0, n=2
这里我们有不同的地址,但是所有的 e 值都包含内存垃圾(nills 可能是由于 mmap 内存页预分配)。
要看到,由于复制数组,firstprivate(e) 变慢了,让我们注释掉所有计算(带有“fmodf”的行)//#pragma omp parallel for firstprivate(b) private(i) shared(e)
Total time:
9.69700000000000000000
//#pragma omp parallel for firstprivate(e,b) private(i)
Total time:
12.83000000000000000000
//#pragma omp parallel for firstprivate(b) private(i,e)
Total time:
9.34880000000000000000
Firstprivate(e) 由于复制数组而变慢。由于计算行,Shared(e) 很慢。
使用 -O3 -ftree-vectorize 编译会稍微减少共享时间:
//#pragma omp parallel for firstprivate(b) private(i) shared(e)
user@comp:~ ./1.sh
Total time:
141.38330000000000000000
//#pragma omp parallel for firstprivate(b) private(e,i)
Total time:
121.80390000000000000000
使用 schedule(static, 256) 并不能解决问题。
让我们继续打开 -O0 选项。注释掉数组填充://e[i]=9.0;
//#pragma omp parallel for firstprivate(b) private(i) shared(e)
Total time:
121.40780000000000000000
//#pragma omp parallel for firstprivate(b) private(e,i)
Total time:
122.33990000000000000000
因此,“共享”速度较慢,因为“私有(private)”数据在未初始化的情况下使用(如评论者所建议)。
让我们看看对线程数的依赖:
4threads
shared
Total time:
156.95030000000000000000
private
Total time:
121.11390000000000000000
2threads
shared
Total time:
155.96970000000000000000
private
Total time:
126.62130000000000000000
1thread (perfomance goes down ca. twice, I have 2-core machine)
shared
Total time:
283.06280000000000000000
private
Total time:
229.37680000000000000000
为了用 1.sh 编译它,我手动取消了两个“parallel for”行,以给 1.sh 注释掉它们。
**1thread without parallel, initialized e[i]**
Total time:
281.22040000000000000000
**1thread without parallel, uninitialized e[i]**
Total time:
231.66060000000000000000
所以,这不是 OpenMP 问题,而是内存/缓存使用问题。用
生成asm代码g++ -O0 -S timings.cpp
在这两种情况下都给出了两个区别:一个是可以忽略的,在标签 LC 计数中,另一个是一个标签 (L3) 包含的不是 1,而是 5 个 asm 行,当初始化 e数组:
L3:
movl -800060(%rbp), %eax
movslq %eax, %rdx
movabsq $4621256167635550208, %rax
movq %rax, -800016(%rbp,%rdx,8)
(初始化发生的地方)和公共(public)线:addl $1, -800060(%rbp)
所以,这似乎是缓存问题。
这不是答案,您可以使用上面的代码进一步研究问题,
关于c++ - 在 OpenMP 中使用共享数据结构而不是私有(private)数据结构时的性能差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18958515/
如果需要在类外访问静态(例如单例),可以选择公共(public)静态而不是私有(private)静态,而当不需要公开函数时首选私有(private)静态(否则未命名的命名空间就可以了)——在这种情况下
在互联网上进行了一些搜索,但找不到简单的答案。我的问题集是在 Android 框架中使用 Java,但我相信这也是标准的 Java 行为。我理解 final 和 private 的定义,它们都用于变量
我有这个代码: public final class Board { private final int[][] blocks; private final int N; pr
对我来说,过去作为 Objective-C 开发人员很简单。一个类需要公开的每个字段都是一个属性,每个私有(private)字段都是一个没有 getter 或 setter 的实例变量。但我经常看到人
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我有一个在 Docker 容器中运行的应用程序。它需要来自公司私有(private) NPM 注册表(Sinopia)的一些私有(private)模块,并且访问这些需要用户身份验证。 Dockerfi
我试图理解 C# 使用 getters 和 setters 自动声明变量与 java 声明之间的区别。 在java中我通常这样做: private int test; public int getTe
我在 Azure 中创建了 VNET。我放入了一个子集 Azure Private Link,它在 VNET 之外和另一台虚拟机中调用 Azure Function。 当我尝试通过专用 IP 调用专用
我在 Azure 中创建了 VNET。我放入了一个子集 Azure Private Link,它在 VNET 之外和另一台虚拟机中调用 Azure Function。 当我尝试通过专用 IP 调用专用
我目前正在使用 Objective-C(适用于 iPhone)构建游戏。 为此,出于性能/复杂性原因,我略微打破了 MVC,并为 View (渲染器)提供了对模型的直接引用。这是因为它应该以 60fp
我已经在 ubuntu 上成功配置了 2 个虚拟主机站点(基于名称的虚拟主机)。我的 apache 版本是 2.2.22。 这两个站点都在本地主机上工作。 /etc/hosts 条目 127.0.0.
考虑下面的类 public class A { private final Map cache; public HeavyObject getThing(); } 假设不能泄漏对缓存
我有一个类,它有一个方法,我希望它只能被它的子对象访问,而不能被这个包中的其他类访问。 Modifier | Class | Package | Subclass | World ———————
本文实例讲述了JavaScript中的公有、私有、特权和静态成员用法。分享给大家供大家参考。具体分析如下: 下面的内容是在《JavaScript.DOM高级程序设计》里面摘抄出来的,比较容易理解,
我有一个用例,我已将其简化为以下程序: public class A { private int x = 100; class B { private int y = ne
问题: 类声明如下: class Select { public: template static Iterator function(Iterator , Iterator , bo
我是一名初级 PHP 程序员。我还有很多东西要学。这就是我问这个问题的原因。在一个类中,您有一个公共(public)函数,您可以从该类外部调用它。有时你有一个私有(private)函数,你可以在私有(
问题是: 何时使用私有(private)函数,何时使用嵌套函数? (我在问 F# 但也许答案可能与其他功能语言相关) 一个小例子 namespace SomeName module BinaryRea
我发现工作表中仍然可以使用私有(private)函数。它们是隐藏的,但如果用户输入他们的名字,他们就会被调用。为什么?它应该以这种方式工作吗?有没有办法完全阻止用户定义的函数在 VBA 项目之外使用?
所以我最近开始尝试使用 Kotlin,我偶然发现了这个: If a top-level declaration is marked private, it is private to the pack
我是一名优秀的程序员,十分优秀!