gpt4 book ai didi

c++ - 加入线程时的性能问题

转载 作者:行者123 更新时间:2023-11-28 05:21:33 25 4
gpt4 key购买 nike

我编写了以下并行代码来检查 vector vector 中的所有元素。我只存储来自 vector<vector<int> > 的那些元素满足给定条件。但是,我的问题是 vector<vector<int> > 中的一些 vector 很大,而其他的很小。由于我的代码需要很长时间才能执行 thread.join()。有人可以建议我如何提高我的代码的性能。

void check_if_condition(vector<int>& a, vector<int>& satisfyingElements)
{
for(vector<int>::iterator i1=a.begin(), l1=a.end(); i1!=l1; ++i1)
if(some_check_condition(*i1))
satisfyingElements.push_back(*i1);

}

void doWork(std::vector<vector<int> >& myVec, std::vector<vector<int> >& results, size_t current, size_t end)
{
end = std::min(end, myVec.size());
int numPassed = 0;
for(; current < end; ++current) {
vector<int> satisfyingElements;
check_if_condition(myVec[current], satisfyingElements);
if(!satisfyingElements.empty()){
results[current] = satisfyingElements;
}
}
}

int main()
{
std::vector<std::vector<int> > myVec(1000000);
std::vector<std::vector<int> > results(myVec.size());
unsigned numparallelThreads = std::thread::hardware_concurrency();

std::vector<std::thread> parallelThreads;
auto blockSize = myVec.size() / numparallelThreads;
for(size_t i = 0; i < numparallelThreads - 1; ++i) {
parallelThreads.emplace_back(doWork, std::ref(myVec), std::ref(results), i * blockSize, (i+1) * blockSize);
}

//also do work in this thread
doWork(myVec, results, (numparallelThreads-1) * blockSize, myVec.size());

for(auto& thread : parallelThreads)
thread.join();

std::vector<int> storage;
storage.reserve(numPassed.load());

auto itRes = results.begin();
auto itmyVec = myVec.begin();
auto endRes = results.end();
for(; itRes != endRes; ++itRes, ++itmyVec) {
if(!(*itRes).empty())
storage.insert(storage.begin(),(*itRes).begin(), (*itRes).end());
}

std::cout << "Done" << std::endl;
}

最佳答案

如果您能给出一些“大”内部 vector 的比例,看看问题有多严重,那就太好了。

不过,我认为您的问题是这样的:

for(auto& thread : parallelThreads)
thread.join();

这个位使得在所有线程上依次通过并等待它们完成,然后才查看下一个。对于线程池,您希望等到每个线程都完成。这可以通过为每个要完成的线程使用 condition_variable 来完成。在他们完成之前,他们必须通知您可以等待的 condition_variable。

查看您的实现,这里更大的问题是您的工作线程在消耗方面不平衡。

为了在所有线程上获得更均衡的负载,您需要扁平化数据结构,以便不同的工作线程可以处理相对相似大小的数据 block 。我不确定您的数据来自哪里,但是在处理大型数据集的应用程序中使用一个 vector 的 vector 听起来不是一个好主意。要么将现有的 vector vector 处理成一个 vector ,要么尽可能地读取数据。如果您的处理需要行号,您可以保留一个开始-结束范围的 vector ,您可以从中找到您的行号。

一旦你有了一个大 vector ,你就可以将它分解成大小相等的 block 以提供给工作线程。其次,您不想在处理堆栈并将它们插入另一个 vector 中构建 vector ,因为您很可能在线程工作期间遇到分配内存的问题。分配内存是全局状态更改,因此需要一定程度的锁定(通过适当的地址分区可以避免)。根据经验,每当您寻求性能时,您都应该从性能关键部分移除动态分配。

在这种情况下,您的线程可能宁愿“标记”元素是满足条件的,而不是构建满足元素的 vector 。一旦完成,您就可以只遍历好的,而无需推送和复制任何内容。这样的解决方案会减少浪费。

事实上,如果我是你,我会先尝试在单线程上解决这个问题,按照上面的建议。如果你摆脱 vector 的 vector 结构,并有条件地迭代元素(这可能就像使用 C++11 标准库提供的 xxxx_if 算法一样简单),你最终可能会获得足够好的性能。只有在那个时候才值得考虑将这项工作的大部分委托(delegate)给工作线程。此时在您的代码中,几乎没有理由使用工作线程,只是为了过滤它们。尽可能少地书写和移动,你会获得很多性能。并行化仅在某些情况下效果很好。

关于c++ - 加入线程时的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41400347/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com