- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是我对英特尔 TBB 流图性能进行基准测试的尝试。这是设置:
continue_msg
到 N
后继节点broadcast_node<continue_msg>
)t
秒。Tserial = N * t
Tpar(ideal) = N * t / C
,其中 C
是核心数。Tpar(actual) / Tserial
以下结果显示了加速作为单个任务(即主体)处理时间的函数:
t = 100 microsecond , speed-up = 14
t = 10 microsecond , speed-up = 7
t = 1 microsecond , speed-up = 1
对于轻量级任务(其计算时间少于 1 微秒),并行代码实际上比串行代码慢。
1 ) 这些结果是否符合英特尔 TBB 基准?
2 ) 当有数千个任务每个花费不到 1 微秒的时间时,是否有比流程图更好的范例?
最佳答案
并行的开销
你的成本模型是错误的。
理想的并行计算时间是:
Tpar(ideal) = N * t / C + Pstart + Pend
其中 Pstart
是开始并行处理所需的时间,而 Pend
是完成并行处理所需的时间。 Pstart
大约为几十毫秒并不罕见。
我不确定您是否熟悉 OpenMP(尽管了解它是件好事),但是,就我们的目的而言,它是一种在线程团队之间划分工作的线程模型。下图显示了与线程组大小相关的一些命令的开销:
要点是让您的并行性(parallel for
行)可能很昂贵,并且会随着线程数量的增加而增长。结束并行性(barrier
行)具有相似的成本。
事实上,如果你看一下 TBB 的教程,第 3.2.2 节(“自动分 block ”)说:
CAUTION: Typically a loop needs to take at least a million clock cycles for parallel_for to improve its performance. For example, a loop that takes at least 500 microseconds on a 2 GHz processor might benefit from parallel_for.
实现更快的速度
加速此类代码的最佳方法是仅在有大量操作的情况下并行执行操作和/或调整执行工作的线程数,以便每个线程都有很多事情要做。在 TBB 中,您可以实现类似的行为,如下所示:
#include <tbb/parallel_for.h>
// . . .
if(work_size>1000)
tbb::serial::parallel_for( . . . );
else
tbb::parallel_for( . . . );
// . . .
您希望将 1000
调整为足够高的数字,以便您开始看到并行性带来的好处。
您还可以减少线程数,因为这会在一定程度上减少开销:
tbb::task_scheduler_init init(nthread);
TBB 还执行动态负载平衡(参见 here)。如果您希望循环迭代/任务具有广泛的运行时间分布,这很好,但如果预期的运行时间相同,则表示不必要的开销。我不确定 TBB 是否有静态调度,但可能值得研究。
如果人们最终没有对 TBB 做出坚定的 promise ,那么在 OpenMP 中,您会执行以下操作:
#pragma omp parallel for if(work_size>1000) num_threads(4) schedule(static)
关于multithreading - 英特尔 TBB 流程图开销,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48081943/
我有疑问。 对于 tbb::memory_pool shared_memory_pool_; 如果在主线程中实例化。而且,我在工作线程中调用了 shared_memory_pool_.malloc(s
我想遍历图像并处理一些与元素的顺序相关的特定值。图像有一个 unsigned char*包含掩码的数组(如果应处理像素则为 255,否则为 0)和 unsigned short*具有像素值的数组。 我
我正在 MinGW32(在 Windows 7 64 位上)下构建 TBB 并成功地将一个简单的程序链接到它。不幸的是,我的同事无法成功链接。我们都运行相同版本的 Windows,相同版本的 MinG
寻找要使用的示例代码 tbb::concurrent_hash_map来自英特尔线程构建模块 (TBB)。 我可以插入,但我似乎无法读回值。 official Intel documentation示
刚刚看了TBB最新的文档。我找不到任何关于 tbb::thread 的信息,但我看到了一些关于互斥锁的信息。 顺便说一句,如果 TBB-4.x 有线程库,请帮我找到使用 tbb 线程的资源。请不要推荐
我对两个程序进行了一些比较,这两个程序使用梅森扭曲器中的伪随机整数填充给定的 vector ,关键是 TBB 版本非常慢,std 版本在大约 0.6 秒内执行任务当TBB至少需要1.1s时。 我还注意
这是我用来学习如何使用 TBB 的玩具示例。 Parallel::operator() 应该并行运行,但它有一个临界区,一次只能由一个处理器访问,因此它打印的消息不会被扰乱。我的问题是它无法编译,而且
我正在使用 SDL Tridion World 的 XSLT 中介器来创建 XSLT TBB。我的要求是,我想将一个 XSLTTBB 的输出传递到另一个 XSLT TBB。 假设我有一个名为“1”的
只是想知道 boost 或 C++11 是否具有与 tbb::queuing_mutex 和 tbb::spin_mutex 相同的互斥锁? 最佳答案 您可以在 reference 中找到支持的互斥锁
有人可以帮我解决这个错误吗? 我尝试在互联网上进行研究并尝试了不同的方法来解决问题(例如:卸载其他版本的 visual c++,添加代码等),但它们似乎都不起作用:( 我做了什么: under c/c
我正在尝试构建一个具有许多依赖项的大型项目。阻止它构建的最后一件事(?)是 TBB 未能处理 int 的类型转换进入 const tbb::& .烦人的是,同一个 Actor 使用std::atomi
我有一个用 C 语言编写的串行(非并行)应用程序。我使用英特尔线程构建模块对其进行了修改和重写。当我在四核机器 AMD Phenom II 机器上运行这个并行版本时,我获得了超过 4 倍的性能增益,这
我有一个视频检索系统,在检索过程中会占用大量内存。我知道 tbb 可扩展分配器将释放的内存释放到内存池,并且不会将其返回给操作系统。这是否意味着该池将始终在其池中拥有那些先前分配的内存,而当其他线程需
我正在tbb::parallel_for_each中深入运行task_group。 task_group被取消,这似乎导致tbb::parallel_for_each在不满足其后置条件的情况下退出。这
我有一个非常简单的parallel_for循环 tbb::parallel_for(tbb::blocked_range(0, values.size()), [&](tbb::blo
假设我有一个并行算法,它使用带有一个或两个锁的显式线程进行同步,并经过优化以利用缓存行(包括多个内核之间的共享 L3 缓存),将其合并到 TBB 程序中的好方法是什么?所讨论的算法并没有像分解成线程那
我想在大型数据集上运行 tbb::parallel_for 并生成一个唯一的集。 parallel_for 主体中包含一些额外的逻辑,用于确定原始数据集的每个子元素是否应包含在该集合中。结果集通常比原
在我之前的问题中,我使用带有输入、转换和输出过滤器的 C++ (Linux) 实现了一个 TBB 管道: incorrect output with TBB pipeline Input 过滤器正在从
我们有一段代码利用 TBB 生成任务来执行一些处理,这是使用以下 TBB 代码初始化 TBB 线程池(以匹配核心数)完成的: tbb::task_scheduler_init(8); 然后对于我们想要
我正在尝试通过 TBB 任务和延续来遍历树。代码如下。当我运行代码时,它不断中止(经常,但不总是)并出现以下错误: Assertion t_next->state()==task::allocated
我是一名优秀的程序员,十分优秀!