gpt4 book ai didi

cuda - GPU上的大矩阵乘法

转载 作者:行者123 更新时间:2023-12-03 23:17:41 34 4
gpt4 key购买 nike

我需要在具有CUDA的GPU上针对大型矩阵实现矩阵乘法。仅每个矩阵的大小就大于GPU内存。所以我认为我需要一种算法来有效地做到这一点。我四处逛逛,但找不到任何东西。谁能给我这种算法的名称或链接。

谢谢

最佳答案

确实没有一个正式的算法可以解决这个问题。通常,这类线性代数运算(其中整个问题未同时存储在内存中)称为“核心以外”运算。

要解决该问题,您不需要特别复杂的算法,只需CUBLAS库和一支铅笔和纸即可。例如,您可以像这样分解矩阵乘积:



它为您提供四个独立的子矩阵乘法运算。可以使用非常简单的宿主代码使用CUBLAS gemm的四个调用来计算这些值。您可以将概念扩展到与问题大小和GPU容量匹配所需的任意多个子矩阵。同样的原理也可以用于在多个GPU上实现矩阵乘法问题(有关示例,请参见this question)。

或者,您可以在哈佛开发的SciGPU-GEMM代码库和HPL-CUDA linpack实现中找到此精确想法的可行实现(免责声明:我与后者的代码库有关联)。

关于cuda - GPU上的大矩阵乘法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14557067/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com