- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
今天是个好日子!
我正在进行分子动力学模拟,最近我开始尝试并行实现它。乍一看,一切看起来都很简单:在最耗时的循环前面编写#pragma omp parallel for 指令。但碰巧的是,这些循环中的函数在数组上运行,或者更准确地说,在属于我的类的对象的数组上运行,该对象包含有关粒子系统和该系统上的函数的所有信息,所以当我添加时在最耗时的循环之一之前的 pragma 指令,尽管我的 2 核 4 线程处理器已满载,但计算时间实际上增加了数倍。
为了解决这个问题,我编写了另一个更简单的程序。该测试程序执行两个相同的循环,一个是并行的,另一个是串行的。测量执行这两个循环所需的时间。结果让我感到惊讶:每当并行计算第一个循环时,其计算时间与串行模式相比减少了(分别为 1500 和 6000 毫秒),但第二个循环的计算时间急剧增加(15 000 对 6000 串行)。
我尝试使用 private() 和 firstprivate() 子句,但结果是一样的。在并行区域之前定义和初始化的每个变量都不应该自动共享吗?如果在另一个向量 vec2 上执行第二个循环的计算时间会恢复正常,但是为每次迭代创建一个新向量显然不是一种选择。我还尝试将 vec1 的实际更新放入 #pragma omp 关键区域,但这也不是什么好事。两者都没有帮助添加 Shared(vec1) 子句。
如果您能指出我的错误并展示正确的方法,我将不胜感激。
是否有必要将该 private(i) 放入代码中?
这是这个测试程序:
#include "stdafx.h"
#include <omp.h>
#include <array>
#include <time.h>
#include <vector>
#include <iostream>
#include <Windows.h>
using namespace std;
#define N1 1000
#define N2 4000
#define dim 1000
int main(){
vector<int>res1,res2;
vector<double>vec1(dim),vec2(N1);
clock_t t, tt;
int k=0;
for( k = 0; k<dim; k++){
vec1[k]=1;
}
t = clock();
#pragma omp parallel
{
double temp;
int i,j,k;
#pragma omp for private(i)
for( i = 0; i<N1; i++){
for(j = 0; j<N2; j++){
for( k = 0; k<dim; k++){
temp+= j;
}
}
vec1[i]+=temp;
temp = 0;
}
}
tt = clock();
cout<<tt-t<<endl;
for(int k = 0; k<dim; k++){
vec1[k]=1;
}
t = clock();
for(int g = 0; g<N1; g++){
for(int h = 0; h<N2; h++){
for(int y = 0; y<dim; y++){
vec1[g]+=h;
}
}
}
tt = clock();
cout<<tt-t<<endl;
getchar();
}
最佳答案
恭喜!您已经暴露了另一个糟糕的 OpenMP 实现,这是由 Microsoft 提供的。我最初的理论是,问题来自 Sandy Bridge 和后来的 Intel CPU 中的分区 L3 缓存。但是仅在向量的前半部分运行第二个循环的结果并未证实该理论。然后它必须是启用 OpenMP 时触发的代码生成器中的某些内容。汇编输出证实了这一点。
基本上,在启用 OpenMP 的情况下编译时,编译器不会优化串行循环。这就是放缓的来源。通过使第二个循环与第一个循环不同,您自己也引入了部分问题。在第一个循环中,您将中间值累积到一个临时变量中,编译器将其优化为寄存器变量,而在第二种情况下,您调用 operator[]
在每次迭代中。当您在未启用 OpenMP 的情况下进行编译时,代码优化器会将第二个循环转换为与第一个循环非常相似的内容,因此两个循环的运行时间几乎相同。
当您启用 OpenMP 时,代码优化器不会优化第二个循环并且运行速度会变慢。您的代码在此之前执行并行 block 的事实与减速无关。我的猜测是代码优化器无法掌握 vec1
的事实。不在 OpenMP 的范围内 parallel
区域,因此不应再将其视为共享变量,并且可以优化循环。显然,这是 Visual Studio 2012 中引入的“功能”,因为即使启用了 OpenMP,Visual Studio 2010 中的代码生成器也能够优化第二个循环。
一种可能的解决方案是迁移到 Visual Studio 2010。另一种(假设的,因为我没有 VS2012)解决方案是将第二个循环提取到一个函数中并通过引用它来传递向量。希望编译器足够聪明,可以优化单独函数中的代码。
这是一个非常糟糕的趋势。微软实际上已经放弃了在 Visual C++ 中支持 OpenMP。它们的实现仍然(几乎)仅符合 OpenMP 2.0(因此没有明确的任务和其他 OpenMP 3.0+ 好东西),并且像这样的错误不会让事情变得更好。我建议您切换到另一个启用 OpenMP 的编译器(英特尔 C/C++ 编译器、GCC、任何非 Microsoft 的东西)或切换到其他一些独立于编译器的线程范例,例如英特尔线程构建 block 。微软显然正在插入他们的 .NET 并行库,而这正是所有开发的方向。
大胖警告
不要使用 clock()
测量经过的挂钟时间! 这只能在 Windows 上按预期工作。在大多数 Unix 系统(包括 Linux)上 clock()
实际返回 自创建以来进程中所有线程消耗的总 CPU 时间 .这意味着 clock()
可能返回比挂钟时间大几倍的值(如果程序运行有许多繁忙的线程)或比挂钟时间短几倍(如果程序在测量之间休眠或等待 IO 事件) .相反,在 OpenMP 程序中,可移植计时器功能 omp_get_wtime()
应该使用。
关于multithreading - OpenMP:在线程之间共享数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13906783/
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET,但 win32 native 可以)? 我想做的是创建类似 awstats 的东西对于 Windows 共享,这样我
是否可以列出 Intent.ACTION_SEND ?我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。 最佳答案 也许你想要一个更
我正在使用 Google Apps 应用程序。实际上,我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth,它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
我怎样才能只创建模拟器...可能吗?我知道,设备需要分发证书。 最佳答案 您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本,它就应该可以工作。 因此,如果您想分发 3.1.3
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。 我正在考虑在第一阶段解决 Maven 依赖项,然后在第二阶段构建应用程序,这将需要访问在前一阶段下
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件,这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat,并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。 我看过类似的帖子,
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针?` 为什么这不起作用?自动测试 = Singleton::Instance(); class Singleton { public: st
我有一个 heroku 项目,我想与其他人分享。作为the instructions describe ,我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。 那么,是否可以由多个用户共享这个本地存储库,或许在不同的目录结构下? 最佳答案 简单的回答
为什么共享 worker 在重新加载页面时死了?应该是复活了我该如何解决这个问题? 重装前 重新加载后(在example.com上按F5) parent worker var port = new S
我正在开发多个小型应用程序,这些应用程序将共享通用和共享模块和 Assets 。 关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
我在 RHEL 上安装了 jenkins (localhost:8080),我能够成功地构建代码 现在,我想设置主/从代理。 我的笔记本电脑将充当“Master Jenkins”,而我同事的笔记本电脑
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
我正在使用 R 中的一个数据分析项目,我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了 。预订 包,我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
我有多个应用程序,我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
我有多个 Electron 应用程序。一个是主应用程序,其他几个功能应用程序。主应用程序上的按钮很少,这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程,该进程导致要利用更多的CPU。是
我正在开发一个 Node.js 后端,它通过 websocket 与一些桌面客户端进行通信,而服务器端的通信是从 Web 前端发起的。一切正常,因为我将 SockJS Connection 实例存储在
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。 我为每个用户帐户使用相同的私钥。 (因为我很懒?或者那是“正确”的方式)。 我现在想授权该国不同地区
我是一名优秀的程序员,十分优秀!