gpt4 book ai didi

C++ OpenMP : Split for loop in even chunks static and join data at the end

转载 作者:行者123 更新时间:2023-11-30 02:52:35 26 4
gpt4 key购买 nike

我试图在 C++ 中创建一个多线程的 for 循环,以便将计算分为多个线程。然而,它包含需要按原样顺序连接在一起的数据。

因此,我们的想法是首先在多个内核(25.000 多个循环)上加入小位,然后在最后再次加入组合数据。

std::vector<int> ids;               // mappings
std::map<int, myData> combineData; // data per id
myData outputData; // combined data based on the mappings
myData threadData; // data per thread

#pragma parallel for default(none) private(data, threadData) shared(combineData)
for (int i=0; i<30000; i++)
{
threadData += combineData[ids[i]];
}

// Then here I would like to get all the seperate thread data and combine them in a similar manner
// I.e.: for each threadData: outputData += threadData

解决这个问题的有效方法是什么?

如何安排 openmp 循环,以便将安排均匀地分成 block

例如对于 2 个线程:[0, 1, 2, 3, 4, .., 14999] & [15000, 15001, 15002, 15003, 15004, .., 29999]

如果有更好的方法来连接数据(这涉及将大量 std::vectors 连接在一起和一些矩阵数学),但保留添加指针的顺序也会有所帮助。

添加信息

  • 加法是结合的,但不是交换的。
  • myData 不是固有类型。这是一个包含多个 std::vectors 数据的类(以及一些与 Autodesk Maya API 相关的数据。)
  • 每个循环都对许多点进行类似的矩阵乘法并将这些点添加到一个 vector (理论上每个循环的计算时间应该大致相似)

基本上它是将网格数据(由数据 vector 组成)添加到彼此(组合网格),尽管整个事物的顺序占顶点的索引值。顶点索引应该是一致的和可重建的。

最佳答案

这取决于 myData 的加法运算符的一些属性。如果运算符既是结合性 (A + B) + C = A + (B + C) 又是交换性 A + B = B + A 那么您可以使用critical 部分,或者如果数据是普通旧数据(例如 float、int,...)reduction

但是,如果它不像你说的那样是可交换的(操作顺序很重要)但仍然是关联的,你可以用等于并行组合数据的线程数的元素填充一个数组,然后按顺序合并它们串行(参见下面的代码。使用 schedule(static) 将或多或少均匀地拆分块,并根据需要增加线程数。

如果运算符既不是关联的也不是交换的,那么我认为您无法将其并行化(有效地 - 例如尝试有效地并行化斐波那契数列)。

std::vector<int> ids;               // mappings
std::map<int, myData> combineData; // data per id
myData outputData; // combined data based on the mappings
myData *threadData;
int nthreads;
#pragma omp parallel
{
#pragma omp single
{
nthreads = omp_get_num_threads();
threadData = new myData[nthreads];
}
myData tmp;
#pragma omp for schedule(static)
for (int i=0; i<30000; i++) {
tmp += combineData[ids[i]];
}
threadData[omp_get_thread_num()] = tmp;
}
for(int i=0; i<nthreads; i++) {
outputData += threadData[i];
}
delete[] threadData;

编辑:在这一点上,我不是 100% 确定是否会使用 #pragma omp for schedule(static) 按照线程数递增的顺序分配 block (尽管如果他们这样做我会感到惊讶不是)。正在进行 discussion在这个问题上。同时,如果您想 100% 确定,则不要

#pragma omp for schedule(static)
for (int i=0; i<30000; i++) {
tmp += combineData[ids[i]];
}

你可以做到

const int nthreads = omp_get_num_threads();
const int ithread = omp_get_thread_num();
const int start = ithread*30000/nthreads;
const int finish = (ithread+1)*30000/nthreads;
for(int i = start; i<finish; i++) {
tmp += combineData[ids[i]];
}

编辑:

我找到了一种更优雅的方式,并行填充但按顺序合并

#pragma omp parallel
{
myData tmp;
#pragma omp for schedule(static) nowait
for (int i=0; i<30000; i++) {
tmp += combineData[ids[i]];
}
#pragma omp for schedule(static) ordered
for(int i=0; i<omp_get_num_threads(); i++) {
#pragma omp ordered
outputData += tmp;
}
}

这避免了为每个线程分配数据 (threadData) 并在并行区域外合并。

关于C++ OpenMP : Split for loop in even chunks static and join data at the end,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18745091/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com