gpt4 book ai didi

c++ - 英特尔 TBB 比标准慢 2 倍 - tbb vs std

转载 作者:太空宇宙 更新时间:2023-11-04 14:55:27 28 4
gpt4 key购买 nike

我对两个程序进行了一些比较,这两个程序使用梅森扭曲器中的伪随机整数填充给定的 vector ,关键是 TBB 版本非常慢,std 版本在大约 0.6 秒内执行任务当TBB至少需要1.1s时。

我还注意到 TBB 并没有真正提供优化的算法来处理容器,但它只提供通用构造(parallel_for、parallel_for_each 和类似的)来处理 std 提供的通用任务 std::generate 在这种情况下,这是一个更好、更清晰的解决方案。

您可以在此处下载我的小测试,其中包含 2 个小源文件 + 用于 gcc 的 Makefile http://www.sendspace.com/file/ew73h8

我这里做错了什么?我增加这个 vector 的大小越多,TBB 就越慢,我在 Ubuntu 13.04 64 位和 Intel Q6600 下。

TBB 版本在某些方面可能会更好?

编辑:2 个文件的完整来源


config.hpp

#define N 10000000

标准.cpp

#include <random>
#include <iostream>
#include <vector>
#include <algorithm>

#include "config.hpp"

int main() {

std::vector<u_int32_t> v(N);

std::mt19937 mt;
std::uniform_int_distribution<u_int32_t> dist(0,499);

std::generate(v.begin(),v.end(),[&]{return dist(mt);});

return(0);
}

tbb.cpp

#include <tbb/concurrent_vector.h>
#include <tbb/parallel_for_each.h>

#include <random>
#include <iostream>

#include "config.hpp"

int main()
{
tbb::concurrent_vector<u_int32_t> v(N);
std::mt19937 mt;
std::uniform_int_distribution<u_int32_t> dist(0, 499);
tbb::parallel_for_each(v.begin(),v.end(),[&](u_int32_t& e){e = dist(mt); });

return(0);
}

最佳答案

您正在为 ITBB 将控制的所有工作人员共享随机数生成器 (RNG),正如我从您的问题中看到的那样,这将是四个。撇开从多个线程改变 RNG 状态的线程安全问题不谈,我会指出对缓存的影响:从四个处理器读取和写入访问 RNG 状态使用的相同内存,这很可能是使缓存无用。

让我们试试这个:

#include <tbb/concurrent_vector.h>
#include <tbb/parallel_for_each.h>

#include <vector>
#include <functional>

#include <random>
#include <iostream>

#include "config.hpp"

static thread_local std::mt19937 mt;
static thread_local std::uniform_int_distribution<u_int32_t> dist(0, 499);

int main()
{
std::vector<u_int32_t> v(N);

auto f = [&v](std::pair<u_int32_t, u_int32_t> const& p) {
for (size_t i=p.first; i < p.second; i++)
{
v[i] = dist( mt );
}
};

std::vector< std::pair< u_int32_t, u_int32_t > > work;
work.push_back( std::make_pair( 0, N/2) );
work.push_back( std::make_pair( N/2, N) );

tbb::parallel_for_each(
work.begin(),
work.end(),
f
);

return(0);
}

现在时间减少到标准版本的近一半(我只有双核)。代码所做的是强制 itbb 在连续的内存块中工作,而不是分发数据,而是分发工作分配。我不认为这是使用 ITBB 的最佳方式,但另一方面 parallel_for_each 不能以 block 大小提供(从我在 docs 中看到的),而使用 *parallel_for* 需要一些研究。但这并不难:

#include <tbb/concurrent_vector.h>
#include <tbb/parallel_for.h>

#include <vector>
#include <functional>

#include <random>
#include <iostream>

#include "config.hpp"

static thread_local std::mt19937 mt;
static thread_local std::uniform_int_distribution<u_int32_t> dist(0, 499);

int main()
{
std::vector<u_int32_t> v(N);

auto f = [&v](const tbb::blocked_range<u_int32_t>& p) {
for (auto i=p.begin(); i < p.end(); i++)
{
v[i] = dist( mt );
}
};

tbb::parallel_for(
tbb::blocked_range<u_int32_t>(0,N),
f
);

return(0);
}

不使用 ITBB,您可能想在 OpenMP 中使用一些并行结构,无论如何它已经与 gcc 捆绑多年(并且您仍然可以将 ITBB 与 OpenMP 一起使用,但要小心)。

随机数和并行代码呢?他们很乱。如果您想独立地为 RNG 播种并计时,上面的代码可能就足够了。如果您想获得可重现的结果和不相关的 RNG,那么您必须注意每个生成器都由特定于线程的种子初始化,并且您还需要一种方法让每个种子通过其线程接触确定性部分工作...

关于c++ - 英特尔 TBB 比标准慢 2 倍 - tbb vs std,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17252402/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com