c - 如何提高此 Strassen 算法实现的速度？-6ren

c - 如何提高此 Strassen 算法实现的速度？

转载作者：塔克拉玛干更新时间：2023-11-03 03:31:37

26

4

<分区>

我正在努力确定为什么我的 Strassen 实现如此缓慢。它会在每次迭代时分配内存，但我会酌情将其全部释放。

int** multiply(int** a, int** b, int size)
{
int row,col,i,j;

if(size == 1)
{
    int** c = allocate(size);
    c[0][0] = (a[0][0] * b[0][0])%2;
    return c;
}

if(size <= 2)
{
    int a11,a12,a21,a22,b11,b12,b21,b22;    
    int** c = allocate(size);
    a11 = a[0][0];
    a12 = a[0][1];
    a21 = a[1][0];
    a22 = a[1][1];
    b11 = b[0][0];
    b12 = b[0][1];
    b21 = b[1][0];
    b22 = b[1][1];

    c[0][0] = (a11*b11 + a12*b21)%2;
        c[0][1] = (a11*b12 + a12*b22)%2;
        c[1][0] = (a21*b11 + a22*b21)%2;
    c[1][1] = (a21*b12 + a22*b22)%2;
        return c;
}

int** c = allocate(size);
size = size/2;

int** A11 = allocate(size);
int** A12 = allocate(size);
int** A21 = allocate(size);
int** A22 = allocate(size);
int** B11 = allocate(size);
int** B12 = allocate(size);
int** B21 = allocate(size);
int** B22 = allocate(size);

for(i=0;i<size;i++)
{
    for(j=0;j<size;j++)
    {
        A11[i][j] = a[i][j];    
        A12[i][j] = a[i][j+size];
        A21[i][j] = a[i+size][j];
        A22[i][j] = a[i + size][j + size];
        B11[i][j] = b[i][j];
        B12[i][j] = b[i][j + size];
        B21[i][j] = b[i + size][j];
        B22[i][j] = b[i + size][j + size];
    }
}

int** S1 = subtract(B12,B22,size);
int** S2 = add(A11,A12, size);
int** S3 = add(A21,A22, size);
int** S4 = subtract(B21,B11, size);
int** S5 = add(A11,A22, size);
int** S6 = add(B11,B22, size);
int** S7 = subtract(A12,A22, size);
int** S8 = add(B21,B22, size);
int** S9 = subtract(A11,A21, size);
int** S10 = add(B11,B12, size);

int** P1 = multiply(A11, S1, size);
int** P2 = multiply(S2, B22, size);
int** P3 = multiply(S3, B11, size);
int** P4 = multiply(A22, S4, size);
int** P5 = multiply(S5, S6, size);
int** P6 = multiply(S7, S8, size);
int** P7 = multiply(S9, S10,size);

int** c11 = subtract(add(P5,P4,size), add(P2,P6,size), size);
int** c12 = add(P1,P2,size);
int** c21 = add(P3,P4,size);
int** c22 = subtract(add(P5,P1,size), subtract(P3,P7,size), size);

int** temp = add(P5,P4,size);
int** temp2 = add(P2,P6, size);

for(i=0; i< size; i++)
{
    for(j=0; j< size; j++)
    {
        c[i][j] = abs(c11[i][j] % 2);           
        c[i][j+size] = abs(c12[i][j] % 2);
        c[i+size][j] = abs(c21[i][j] % 2);
        c[i+size][j+size] = abs(c22[i][j] % 2);
    }
}

deallocate(A11, size);
deallocate(A12, size);
deallocate(A21, size);
deallocate(A22, size);
deallocate(B11, size);
deallocate(B12, size);
deallocate(B21, size);
deallocate(B22, size);
deallocate(c11, size);
deallocate(c12, size);
deallocate(c21, size);
deallocate(c22, size);
deallocate(P1, size);
deallocate(P2, size);
deallocate(P3, size);
deallocate(P4, size);
deallocate(P5, size);
deallocate(P6, size);
deallocate(P7, size);
deallocate(S1, size);
deallocate(S2, size);
deallocate(S3, size);
deallocate(S4, size);
deallocate(S5, size);
deallocate(S6, size);
deallocate(S7, size);
deallocate(S8, size);
deallocate(S9, size);
deallocate(S10, size);
deallocate(temp, size);
deallocate(temp2, size);
return c;
}

26

4

0

文章推荐： algorithm - 修改二进制搜索以查找下一个比键更大的项目

文章推荐： java - Sonar :sonar work?如何

文章推荐： java - 如何让 chromedriver 检测不到

文章推荐： java - 在 Java 语言的许多元素的集合中找到最小的 e1-e2

java - Strassen 算法的矩阵划分
假设我有一个 NxN 矩阵，其中充满 1 到 10 范围内的随机整数。现在我想打电话PROC(A(1:n/2, 1:n/2)+A(n/2+1:n, n/2+1:n)... 其中 n 是矩阵的大小。换句
c - Strassen 矩阵乘法的内存管理
作为作业的一部分，我试图找出 Strassen 矩阵乘法和朴素乘法算法的交叉点。但同样，当矩阵变为 256x256 时，我无法继续。有人可以建议我适当的内存管理技术，以便能够处理更大的输入。 C语言代
java - Strassen 的算法归零
我们的想法是创建一个计时器，该计时器将返回执行特定功能所需的时间。我坐下来编写了一个矩阵类和一个 Strass 函数，应该将我输入其中的值相乘。定时器函数工作正常，因为它返回执行 Strass 函数
algorithm - Strassen 的算法效率帮助
您好，我正在尝试提高 Strassen 算法的效率，但需要一些帮助。该算法的递归关系如下: A(n) = 7A(n/2)+18(n/2)^2, for n>1, A(1) = 0. 我已经解决了这个问
algorithm - Strassen 计算矩阵平方的方法有什么问题？
使用与 Strassen's 相同的方法仅 5 次乘法就足以计算矩阵的平方。如果 A[2][2] = [a, b, c, d]，则乘法为 a * a、d * d、b * (a + d)、c * (a
c - Strassen 奇数矩阵的优化静态填充
我正在尝试解决 Strassen 算法的奇数矩阵问题。我的实现在某个点截断递归，称之为 Q，然后切换到标准实现。因此，在进行静态填充时，我实际上不需要填充到 2 的下一个幂。我只需要填充到至少大于输入
algorithm - Strassen 的算法证明
我一直在阅读关于矩阵乘法的 Strassen 算法。正如 Cormen 在算法导论中提到的，该算法并不直观。但是，我很想知道是否存在任何严格的算法数学证明以及算法设计中实际采用的内容。我尝试在 G
algorithm - Strassen 算法不是最快的？
我从某处复制了 strassen 的算法，然后执行了它。这是输出 n = 256 classical took 360ms strassen 1 took 33609ms strassen2 took
algorithm - strassen 的矩阵乘法在哪里有用？
Strassen 的矩阵乘法算法仅比传统的 O(N^3) 算法略有改进。它具有更高的常数因子并且更难实现。考虑到这些缺点，strassens 算法是否真的有用，它是否在任何用于矩阵乘法的库中实现？此外
c++ - Strassen 算法中的递归
我想知道您将如何在 Strassen 算法中进行递归调用，以及它们究竟在哪里需要。我知道 7 个乘法器比 8 个乘法器更有效，但我对如何递归计算这些乘法器感到困惑。特别是，如果我们遵循分而治之的范式
python - Schonhage-Strassen 乘法实现错误
我正在尝试使用 NTT 实现 Schonhage-Strassen 乘法算法，但遇到了一个问题，即最终生成的向量实际上并不等于它应有的值。对于两个输入向量 a 和 b，每个向量由 N 个“数字”组成
algorithm - 带递归的 Strassen 子三次矩阵乘法算法
我很难构思如何实现 Strassen 版本的该算法。对于背景，我有以下迭代版本的伪代码: def Matrix(a,b): result = [] for i in range(0,
c - 如何提高此 Strassen 算法实现的速度？
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
algorithm - 交叉点 : Strassen's Algorithm
就效率而言，Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少？我知道这与具体的实现和硬件密切相关，但对于一般情况应该有某种指南或某人的一些实验结果。在网上搜索了一下，问了一些他们认为
c++ - 任何输入的 strassen 算法
我们怎样才能改变 Strassen algorithm以便它适用于任何大小的矩阵(例如 n=5)？最佳答案您所要做的就是用 0 的行和列填充矩阵，直到它们成为大小为 2 的幂的方阵。或者换句话说:
c++ - Strassen-Winograd 算法
我接到了一项任务，要用 C++ 编写 Strassen-Winograd 算法。我已经写了两次，但我的代码的第一个版本不起作用。结果矩阵左下角的结果是正确的。我的第二个版本运行速度比原始算法慢，即使
c++ - 为什么 Strassen 矩阵乘法比标准矩阵乘法慢得多？
我用 C++、Python 和 Java 编写了矩阵乘法程序，并测试了它们对两个 2000 x 2000 矩阵相乘的速度(参见 post)。标准 ikj 实现 - 在中- 拍摄: C++:15 秒(
c++ - 为什么我的 Strassen 矩阵乘法很慢？
我用 C++ 编写了两个矩阵乘法程序:Regular MM (source) , 和 Strassen 的 MM (source) ，它们都在大小为 2^k x 2^k 的方阵上运行(换句话说，是偶数
python - Strassen 矩阵乘法——接近，但仍然存在错误
我正在尝试在 Python 中实现 Strassen 矩阵乘法。我已经让它发挥了一些作用。这是我的代码: a = [[1,1,1,1],[2,2,2,2],[3,3,3,3],[4,4,4,4]] b
python - python 实现中的 Strassen 算法错误
我通过 Strassen 算法和 Python 3 中的朴素嵌套 for 循环实现得到了不同的矩阵乘法输出。代码: def new_matrix(r, c): """Create a new

首页

博学

6Ren·AI

商城

c - 如何提高此 Strassen 算法实现的速度？