c++ - 如何在 CUDA 中实现子矩阵的接口(interface)？-6ren

c++ - 如何在 CUDA 中实现子矩阵的接口(interface)？

转载作者：行者123 更新时间：2023-11-28 05:41:49

我有一个包装类 CudaMatrix，它实现了几个 cuBLAS 操作，允许我调用运行 sgemm 的 m1.multiply(m2)对内部数据指针的操作。

我想通过对子矩阵的操作来扩展这个类，比如

CudaMatrix a(100,100);
CudaMatrix b(100,100);
// fill a and b

int i=5, j=15;
CudaSubMatrix sa(a, i, j, i+10, j+10); // sa := a[5:15, 15:25]

i=50, j=60;
CudaSubMatrix sb(b, i, j, i+10, j+10); // sb := b[50:60, 60:70]    

CudaMatrix res;
res.copy(sa);
res.multiply(sb)  // res = sa*sb

在最后一行，multiply()需要对一个子矩阵sb进行运算，所以行不连续，我不能调用相同的sgemm 操作如前。

如何实现一个高效的子矩阵接口(interface)，避免显式复制数据？是否有任何我可以寻找的开源实现？

最佳答案

可以使用 API 调用的 ldx 参数执行子矩阵乘法。

索引在 1.1 DataLayout 中描述部分: