java - cublasSgemm与jcuda批量使用-6ren

java - cublasSgemm与jcuda批量使用

转载作者：太空宇宙更新时间：2023-11-04 08:10:21

26

4

我一直在尝试在 jcuda 中使用 cublasSgemmBatched() 函数对于矩阵乘法，我不确定如何正确处理指针传递和批处理矩阵的 vector 。如果有人知道如何修改我的代码以正确处理这个问题，我将非常感激。在此示例中，C 数组在 cublasGetVector 之后保持不变。

public static void SsmmBatchJCublas(int m, int n, int k, float A[], float B[]){

    // Create a CUBLAS handle
    cublasHandle handle = new cublasHandle();
    cublasCreate(handle);

    // Allocate memory on the device
    Pointer d_A = new Pointer();
    Pointer d_B = new Pointer();
    Pointer d_C = new Pointer();


    cudaMalloc(d_A, m*k * Sizeof.FLOAT);
    cudaMalloc(d_B, n*k * Sizeof.FLOAT);
    cudaMalloc(d_C, m*n * Sizeof.FLOAT);

    float[] C = new float[m*n];
    // Copy the memory from the host to the device
    cublasSetVector(m*k, Sizeof.FLOAT, Pointer.to(A), 1, d_A, 1);
    cublasSetVector(n*k, Sizeof.FLOAT, Pointer.to(B), 1, d_B, 1);
    cublasSetVector(m*n, Sizeof.FLOAT, Pointer.to(C), 1, d_C, 1);

    Pointer[] Aarray = new Pointer[]{d_A};
    Pointer AarrayPtr = Pointer.to(Aarray);
    Pointer[] Barray = new Pointer[]{d_B};
    Pointer BarrayPtr = Pointer.to(Barray);
    Pointer[] Carray = new Pointer[]{d_C};
    Pointer CarrayPtr = Pointer.to(Carray);

    // Execute sgemm
    Pointer pAlpha = Pointer.to(new float[]{1});
    Pointer pBeta = Pointer.to(new float[]{0});


    cublasSgemmBatched(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, pAlpha, AarrayPtr, Aarray.length, BarrayPtr, Barray.length, pBeta, CarrayPtr, Carray.length, Aarray.length);
    // Copy the result from the device to the host
    cublasGetVector(m*n, Sizeof.FLOAT, d_C, 1, Pointer.to(C), 1);

    // Clean up
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    cublasDestroy(handle);
}

最佳答案

我在jcuda官方论坛上提问，很快就得到了答案here .

关于java - cublasSgemm与jcuda批量使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11332327/

26

4

0

文章推荐： java - HQL:交叉连接

文章推荐： python - 仅将唯一对象插入列表

文章推荐： java - NeoDatis 未存储 UUID 字段

c++ - cublasSdot 的工作速度比 cublasSgemm 慢
在我的玩具示例中，我首先将大小为 32x32 的矩阵乘以 100 000 次，然后计算两个大小为 1024< 的 vector 的标量积，100 000 次。第一次使用 cublasSgemm，第二次
c - C 主机代码调用 cublasSgemm 的结果不正确
在从 C 主机代码调用 cuBLAS 库函数 cublasSgemm 时，我得到了一些奇怪的数字。它编译并运行，但结果矩阵中的数字不正确。通过 C 主机代码调用这些函数的问题是 C 语言以行优先顺序
c++ - 为 cublasSgemm 使用指向 vector::data() 的指针
我在使用 cudaMalloc、cudaMemcpy 和 cublasSgemm 时尝试使用 vector::data() 指针，但我似乎无法让它工作。如果我没记错的话，vector::data()
python - 运行时错误 : CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle)` with GPU only
我正在研究具有一维信号的 CNN。它适用于 CPU 设备完全正常。但是，当我在 GPU 中训练模型时，发生了 CUDA 错误。我设置了os.environ['CUDA_LAUNCH_BLOCKING'

首页

博学

6Ren·AI

商城

java - cublasSgemm与jcuda批量使用