- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我想在我的应用程序中使用多核计算。我开始开发sample application with openMP (C++)。
当我启动它时,我发现我的多核计算没有比串行计算快(即使在某些情况下,多核计算也比串行计算慢):
./openmp_test
序列号。和:1.77544e + 08时间:21.84
减少2个线程。和:1.77544e + 08时间:21.65
两个部分。和:1.77544e + 08时间:60.65
我的下一个想法是创建boost::thread application来测试CPU内核上的两个线程。结果:
./boost_thread_test
序列号。和:1.42146e + 09时间:179.64
两个增强线程。和:1.42146e + 09时间:493.34
我使用内部装有Core i3 CPU的openSuSe(x64)笔记本电脑。
为什么我的多线程性能这么差?
最佳答案
您的两个代码(一个基于OpenMP sections
的代码和一个基于boost::thread
的代码)都可能是错误共享的受害者。错误共享的发生是因为时间加载和存储在整个高速缓存行上操作,而不是直接在其操作数上操作。例如,以下语句:
sum = sum + value;
sum
的值,先进行更新然后再写回,而且还会导致一小部分内存,即先读取然后再写回缓存行。现代x86 CPU上的高速缓存行通常约为64字节,这意味着不仅
sum
的值将从内存中加载/存储到内存中,而且在其周围也有56字节。高速缓存行也总是从64的倍数开始的地址。这对您的代码有什么影响?
double sum1;
double sum2;
...
// one section operates on sum1
...
// one section operates on sum2
...
sum1
和
sum2
位于父函数
omp_sections
的堆栈上(注意-
omp_
前缀为OpenMP运行时库中的函数保留;请勿使用它来命名自己的函数!)。作为 double 型,
sum1
和
sum2
在8字节边界上对齐,总共需要16个字节。它们都落在同一缓存行中的概率为7/8或87.5%。当第一个线程想要更新
sum1
时,将发生以下情况:
sum1
的缓存行sum1
的值sum1
和
sum2
可能落在同一缓存行中,因此执行秒线程的内核必须使它的缓存无效并从较低的内存层次结构级别(例如,从共享的最后一级缓存或从主内存)重新加载它。 。当第二个线程修改
sum2
的值时,情况完全相同。
reduction
一样使用
for
子句:
double sum;
#pragma omp parallel sections reduction(+:sum) num_threads(2)
{
...
}
double sum1;
char pad[64];
double sum2;
sum1
那样对它们进行重新排序,
sum2
,
pad
。如果是这样,可以将它们放置在结构中。
double *a; // 4 bytes on x86, 8 bytes on x64
int niter; // 4 bytes
int start; // 4 bytes
int end; // 4 bytes
// 4 bytes padding on x64 because doubles must be aligned
double sum; // 8 bytes
sum
后添加至少32个字节大小的填充数据成员:
class Calc
{
private:
double *a;
int niter;
int start;
int end;
double sum;
char pad[32];
...
};
private
变量(包括由
reduction
子句创建的隐式私有(private)副本)可能驻留在各个线程的堆栈上,因此相隔不止一个缓存行,因此不会发生错误共享,并且代码并行运行速度更快。
double sum1 __attribute__((aligned(64))) = 0;
double sum2 __attribute__((aligned(64))) = 0;
sum1
和
sum2
是共享变量。因此,它仍然会比使用减少功能的版本慢。在我的测试系统上,在串行执行时间为20秒的情况下,在高速缓存行边界上对齐两个变量可使执行时间从56秒减少到30秒。这仅表明有时OpenMP构造破坏了一些编译器优化,并且并行代码的运行速度可能比串行代码慢得多,因此必须小心。
lastprivate
,这将允许编译器对其进行寄存器优化:
#pragma omp parallel sections num_threads(2) lastprivate(sum1,sum2)
sum1
和
sum2
:
#pragma omp section
{
double s = 0;
for (int i = 0; i < niter / 2; i++)
{
for (int j = 0; j < niter; j++)
{
for (int k = 0; k < niter; k++)
{
double x = sin(a[i]) * cos(a[j]) * sin(a[k]);
s += x;
}
}
}
sum1 = s;
}
// Same for the other section
threadprivate(sum1)
。
boost
,所以我无法测试您的线程化代码。尝试使用
Calc::run()
执行整个计算,以便了解使用C++类对速度有何影响。
关于c++ - Linux上的多核计算性能低下(openMP,boost::thread等),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13798366/
我正在尝试使用boost.spirit的qi库解析某些内容,而我遇到了一个问题。根据spirit docs,a >> b应该产生类型为tuple的东西。但这是boost::tuple(又名 fusio
似乎有/正在努力做到这一点,但到目前为止我看到的大多数资源要么已经过时(带有死链接),要么几乎没有信息来实际构建一个小的工作样本(例如,依赖于boost program_options 以构建可执行文
我对 Boost.Log 的状态有点困惑。这是 Boost 的官方部分,还是尚未被接受?当我用谷歌搜索时,我看到一些帖子谈论它在 2010 年是如何被接受的,等等,但是当我查看最后一个 Boost 库
Boost 提供了两种不同的实现 string_view ,这将成为 C++17 的一部分: boost::string_ref在 utility/string_ref.hpp boost::stri
最近,我被一家GIS公司雇用来重写他们的旧地理信息库。所以我目前正在寻找一个好的计算几何库。我看过CGAL,这真是了不起,但是我的老板想要免费的东西。 所以我现在正在检查Boost.Geometry。
假设我有一个无向图 G。假设我添加以下内容 add_edge(1,2,G); add_edge(1,3,G); add_edge(0,2,G); 现在我再说一遍: add_edge(0,2,G); 我
我使用 CMake 来查找 Boost。找到了 Boost,但 CMake 出错了 Imported targets not available for Boost version 请参阅下面的完整错
我是 boost::fusion 和 boost::mpl 库的新手。谁能告诉我这两个库之间的主要区别? 到目前为止,我只使用 fusion::vector 和其他一些简单的东西。现在我想使用 fus
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: What are the benefits of using Boost.Phoenix? 所以我开始阅读 boos
我正在尝试获得一个使用 Boost.Timer 的简单示例,用于一些秒表性能测量,但我不明白为什么我无法成功地将 Boost.Timer 链接到 Boost.Chrono。我使用以下简单脚本从源代码构
我有这样的东西: enum EFood{ eMeat, eFruit }; class Food{ }; class Meat: public Food{ void someM
有人可以告诉我,我如何获得boost::Variant处理无序地图? typedef boost::variant lut_value;unordered_map table; 我认为有一个用于boo
我对 Boost.Geometry 中的环和多边形感到困惑。 在文档中,没有图形显示什么是环,什么是多边形。 谁能画图解释两个概念的区别? 最佳答案 在 Boost.Geometry 中,多边形被定义
我正在使用 boost.pool,但我不知道何时使用 boost::pool<>::malloc和 boost::pool<>::ordered_malloc ? 所以, boost::pool<>:
我正在尝试通过 *boost::fast_pool_allocator* 使用 *boost::container::flat_set*。但是,我收到编译错误。非常感谢您的意见和建议。为了突出这个问题
sau_timer::sau_timer(int secs, timerparam f) : strnd(io), t(io, boost::posix_time::seconds(secs)
我无法理解此功能的文档,我已多次看到以下内容 tie (ei,ei_end) = out_edges(*(vi+a),g); **g**::out_edge_iterator ei, ei_end;
我想在 C++ 中序列化分层数据结构。我正在处理的项目使用 boost,所以我使用 boost::property_tree::ptree 作为我的数据节点结构。 我们有像 Person 这样的高级结
我需要一些帮助来解决这个异常,我正在实现一个 NPAPI 插件,以便能够使用来自浏览器扩展的本地套接字,为此我正在使用 Firebreath 框架。 对于套接字和连接,我使用带有异步调用的 Boost
我尝试将 boost::bind 与 boost::factory 结合使用但没有成功 我有这个类 Zambas 有 4 个参数(2 个字符串和 2 个整数)和 class Zambas { publ
我是一名优秀的程序员,十分优秀!