gpt4 book ai didi

c++ - 为什么我的 Strassen 矩阵乘法很慢?

转载 作者:IT老高 更新时间:2023-10-28 21:39:11 26 4
gpt4 key购买 nike

我用 C++ 编写了两个矩阵乘法程序:Regular MM (source) , 和 Strassen 的 MM (source) ,它们都在大小为 2^k x 2^k 的方阵上运行(换句话说,是偶数大小的方阵)。

结果很糟糕。对于 1024 x 1024 矩阵,Regular MM 需要 46.381 sec , 而 Strassen 的 MM 取 1484.303 sec (25 minutes !!!!)。

我试图使代码尽可能简单。在网上找到的其他 Strassen 的 MM 示例与我的代码没有太大区别。 Strassen 的代码的一个问题是显而易见的——我没有切换到常规 MM 的截止点。

我的 Strassen 的 MM 代码还有什么其他问题???

谢谢!

直接链接到来源
http://pastebin.com/HqHtFpq9
http://pastebin.com/USRQ5tuy

编辑1。拳头,很多很好的建议。感谢您抽出宝贵时间分享知识。

我实现了更改(保留了我的所有代码),添加了截止点。MM 的 2048x2048 矩阵,截止 512 已经给出了很好的结果。普通MM:191.49s施特拉森的 MM:112.179s很显着的提高。结果是使用 Visual Studio 2012 在配备英特尔迅驰处理器的史前联想 X61 平板电脑上获得的。我会做更多的检查(以确保我得到正确的结果),并将公布结果。

最佳答案

One issue with Strassen's code is obvious - I don't have cutoff point, that switches to regular MM.

可以公平地说,递归到 1 点是大部分(如果不是全部)问题。试图猜测其他性能瓶颈而不解决这个问题几乎没有实际意义,因为它会带来巨大的性能损失。 (换句话说,您是在将苹果与橙子进行比较。)

正如评论中所讨论的,缓存对齐可能会产生影响,但不会达到这种程度。此外,缓存对齐对常规算法的伤害可能比 Strassen 算法更大,因为后者是缓存无意识的。

void strassen(int **a, int **b, int **c, int tam) {

// trivial case: when the matrix is 1 X 1:
if (tam == 1) {
c[0][0] = a[0][0] * b[0][0];
return;
}

这太小了。虽然 Strassen 算法的复杂度较小,但它的 Big-O 常数要大得多。一方面,您的函数调用开销一直到 1 个元素。

这类似于使用合并或快速排序并一直递归到一个元素。为了提高效率,您需要在尺寸变小时停止递归并回退到经典算法。

在快速/合并排序中,您会退回到开销较低的 O(n^2) 插入或选择排序。在这里你会回到正常的 O(n^3) 矩阵乘法。


您回退经典算法的阈值应该是一个可调阈值,该阈值可能会因硬件和编译器优化代码的能力而异。

对于像 Strassen 乘法,其优势仅为 O(2.8074) 优于经典的 O(n^3),如果此阈值发生变化,请不要感到惊讶出来非常高。 (数千个元素?)


在某些应用程序中,可能有许多算法,每个算法的复杂度都在降低,但 Big-O 会增加。结果是多种算法在不同大小下变得最优。

大整数乘法是一个臭名昭著的例子:

*请注意,这些示例阈值是近似值,可能会发生巨大变化 - 通常超过 10 倍。

关于c++ - 为什么我的 Strassen 矩阵乘法很慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13559928/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com