gpt4 book ai didi

c++ - STL 算法中跨函数边界的循环重新排序

转载 作者:行者123 更新时间:2023-11-30 03:09:02 25 4
gpt4 key购买 nike

为简单起见,假设我有一个 N 矩阵 vector ,每 M 行。我正在使用 STL std::accumulate 来计算所有矩阵的总和。我传递了一个二元仿函数,它接受两个矩阵(通过引用)并返回它们的和(通过引用)。全面披露:我正在使用 libstdc++ 并行模式。在仿函数中,我逐个循环遍历行以计算总和。

虽然每个矩阵都太大而无法放入缓存,但一行非常适合。因此,重新排序循环以便外层循环索引 M 行和内层循环索引 N 矩阵将是有利的。除了内联定义仿函数之外,我还能做些什么来鼓励这种跨函数边界循环的重新排序。我当然可以重组代码,但理想情况下我希望保留使用 STL 算法所提供的简单结构。如果有特定于 gcc 的内容,我也不介意。

我实际上并没有处理矩阵,这只是一个例子,但同样的问题结构也适用。主要问题是性能。解释实际场景会太麻烦,但核心问题是:STL 的 accumulate 需要在嵌套循环之间排序,这对缓存不太友好,因为它试图在移动到下一个对象之前完成两个对象的添加。单个对象太大而无法保存在缓存中,但它的一部分可以。因此,如果一次(在所有对象上)计算一个“部分”的“加法”,则可以加快执行速度。手动重新排序循环会导致 FLOPS 的显着改进。但理想情况下,我希望编译器进行重新排序,以便我可以在 STL 级别(尽可能)进行编码。所以我正在寻找技巧来做到这一点。

最佳答案

class Matrix;
class Row;
struct SumNRow {
int _rowidx;
// Row _tempRow; //For return by reference left out for simplicity
SumNRow(int iRowIdx): _rowIdx(iRowIdx) {}
Row operator(const Matrix & iMarix1, const Matrix iMatrix2) {
return iMarix1[_rowIdx] + iMatrix2[_rowIdx];
}
};

template<class MatrixIterator>
void sum(const MatrixIterator & iMarixStart, const MatrixIterator & iMatrixEnd, Matrix & oMarix) {
for (int i = 0; i < iMarixStart->rowCount(); ++i) {
oMarix[i]=std::accumulate(iMarixStart, iMatrixEnd, SumNRow(i));
}
}

关于c++ - STL 算法中跨函数边界的循环重新排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4466994/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com