cuda - CUBLAS 同步-6ren

cuda - CUBLAS 同步

转载作者：行者123 更新时间：2023-12-02 09:40:19

37

4

CUBLAS 文档提到我们在读取标量结果之前需要同步:

“此外，少数返回标量结果的函数，例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2()，通过引用返回结果值主机或设备。请注意，即使这些函数立即返回，与矩阵和向量结果类似，标量结果仅在 GPU 上的例程执行完成时才准备好。这需要适当的同步才能从主机。”

这是否意味着我们应该在从主机读取标量结果之前始终进行同步，即使我们只使用单个流？我一直在 NVIDIA 的 CUDA 文档中寻找示例，但没有找到。

但是在 conjugate gradient example由NVIDIA提供，有以下代码

while (r1 > tol*tol && k <= max_iter)
{
    if (k > 1)
    {
        b = r1 / r0;
        cublasStatus = cublasSscal(cublasHandle, N, &b, d_p, 1);
        cublasStatus = cublasSaxpy(cublasHandle, N, &alpha, d_r, 1, d_p, 1);
    }
    else
    {
        cublasStatus = cublasScopy(cublasHandle, N, d_r, 1, d_p, 1);
    }

    cusparseScsrmv(cusparseHandle, CUSPARSE_OPERATION_NON_TRANSPOSE, N, N, nz, &alpha, descr, d_val, d_row, d_col, d_p, &beta, d_Ax);
    cublasStatus = cublasSdot(cublasHandle, N, d_p, 1, d_Ax, 1, &dot);
    a = r1 / dot;

    cublasStatus = cublasSaxpy(cublasHandle, N, &a, d_p, 1, d_x, 1);
    na = -a;
    cublasStatus = cublasSaxpy(cublasHandle, N, &na, d_Ax, 1, d_r, 1);

    r0 = r1;
    cublasStatus = cublasSdot(cublasHandle, N, d_r, 1, d_r, 1, &r1);
    cudaThreadSynchronize();
    printf("iteration = %3d, residual = %e\n", k, sqrt(r1));
    k++;
}

这里在 while 循环结束之前有一个 cudaThreadSynchronize() 调用。是为了 cublasSdot 调用吗？但循环中有两个 cublasSdot 调用。为什么第二个cublasSdot后面有cudaThreadSynchronize()，而不是第一个？

编辑:为了了解发生了什么，我使用以下代码来比较同步和不同步的点积结果。

int main(int argc, char **argv)
{
    /* Generate a large vector */
    int N = 1024 * 1024 * 512;

    double *x_cpu = (double *)malloc(sizeof(double)*N);
    for (int i = 0; i < N; i++)
    {
        x_cpu[i] = double(rand()) / RAND_MAX;
    }


    double *x_gpu;
    cudaMalloc((void **)&x_gpu, N*sizeof(double));
    cudaMemcpy(x_gpu, x_cpu, N*sizeof(double), cudaMemcpyHostToDevice);

    /* Get handle to the CUBLAS context */
    cublasHandle_t cublasHandle = 0;
    cublasStatus_t cublasStatus;
    cublasStatus = cublasCreate(&cublasHandle);

    int M = 1000;
    std::vector<double> x_dot_vec(M, 0.0);
    double *x_dot_ptr = &(x_dot_vec[0]);

    std::cout << "Begin Launching CUBLAS........" << std::endl;

    for(int j = 0; j < M; j++){
        cublasDdot(cublasHandle, N, x_gpu, 1, x_gpu, 1, x_dot_ptr + j);
    }

    std::cout << "End Launching CUBLAS........." << std::endl;

    double old_value = x_dot_vec.back();
    cudaDeviceSynchronize();
    double new_value = x_dot_vec.back();
    std::cout << "Old Value: " << old_value << ",   New Value: " << new_value << std::endl;

    free(x_cpu);
    cudaFree(x_gpu);

    return 0;
}

这里的想法是，我们创建一个非常大的向量，并使用 cublas 多次计算其点积，并将返回值写入主机上的数组中。启动所有 cublas 函数后，我们立即读取结果数组的最后一个元素，而无需同步。如果 cublasDdot 调用确实是非阻塞的，那么最后一个元素不应该被写入。然后我们进行同步并再次读取最后一个元素。这次它应该存储了正确的点积，希望给我们一个与没有同步时获得的值不同的值。然而，当我运行此代码时，这两个值始终相同。而且 cublas 调用之前和之后的输出之间需要很长时间。看起来 cublasDdot 实际上是阻塞的，与 CUBLAS 文档中所说的不同。

我还尝试了以下版本，其中结果输出到设备阵列而不是主机阵列。但结果看起来是一样的。

int main(int argc, char **argv)
{
    /* Generate a large vector */
    int N = 1024 * 1024 * 512;

    double *x_cpu = (double *)malloc(sizeof(double)*N);
    for (int i = 0; i < N; i++)
    {
        x_cpu[i] = double(rand()) / RAND_MAX;
    }


    double *x_gpu;
    cudaMalloc((void **)&x_gpu, N*sizeof(double));
    cudaMemcpy(x_gpu, x_cpu, N*sizeof(double), cudaMemcpyHostToDevice);

    /* Get handle to the CUBLAS context */
    cublasHandle_t cublasHandle = 0;
    cublasStatus_t cublasStatus;
    cublasStatus = cublasCreate(&cublasHandle);
    cublasSetPointerMode(cublasHandle, CUBLAS_POINTER_MODE_DEVICE);

    int M = 1000;
    std::vector<double> x_dot_vec(M, 0.0);
    double *x_dot_ptr = &(x_dot_vec[0]);
    double *dot_gpu;
    cudaMalloc((void **)&dot_gpu, sizeof(double) * M);
    cudaMemcpy(dot_gpu, x_dot_ptr, M * sizeof(double), cudaMemcpyHostToDevice);
    double old_value, new_value;

    std::cout << "Begin Launching CUBLAS........" << std::endl;

    for(int j = 0; j < M; j++){
        cublasDdot(cublasHandle, N, x_gpu, 1, x_gpu, 1, dot_gpu + j);
    }

    std::cout << "End Launching CUBLAS........." << std::endl;

    cudaMemcpy(&old_value, dot_gpu + M - 1, sizeof(double), cudaMemcpyDeviceToHost);
    cudaDeviceSynchronize();
    cudaMemcpy(&new_value, dot_gpu + M - 1, sizeof(double), cudaMemcpyDeviceToHost);
    std::cout << "Old Value: " << old_value << ",   New Value: " << new_value << std::endl;

    free(x_cpu);
    cudaFree(x_gpu);
    cudaFree(dot_gpu);

    return 0;
}

最佳答案

我认为该代码不正确。正如您所注意到的，在 CUBLAS V2 API 中，cublasSdot 是非阻塞调用，理论上需要同步原语才能在主机内存中使用结果。

第一个 cublasSdot 调用还应该有一个同步点，例如:

...
cusparseScsrmv(cusparseHandle, CUSPARSE_OPERATION_NON_TRANSPOSE, N, N, nz, &alpha, descr, d_val, d_row, d_col, d_p, &beta, d_Ax);
cublasStatus = cublasSdot(cublasHandle, N, d_p, 1, d_Ax, 1, &dot);
cudaDeviceSynchronize();
a = r1 / dot;
...

该示例代码还使用了长期弃用的 cudaThreadSynchronize API 调用。我建议向 NVIDIA 提交有关这两项的错误报告。

关于cuda - CUBLAS 同步，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22480095/

37

4

0

文章推荐： java - 删除两个特定标签之间的所有字符(java regex)

文章推荐： c# - 确定哪个键盘正在发送击键

文章推荐： java - 我的 Comparable 实现出了点问题

文章推荐： latex - 如何使用 XeTeX 获取所有可用 (TTF-) 字体的列表？

IMAP 同步
我正在实现 IMAP 客户端，但 IMAP 邮箱同步出现问题。首先，可以从 IMAP 服务器获取新邮件，但我不知道如何从邮箱中查找已删除的邮件。我是否应该从服务器获取所有消息并将其与本地数据进行比
Java-同步
我研究线程同步。当我有这个例子时: class A { public synchronized void methodA(){ } public synchronized void met
Java——同步
嗨，我做了一个扩展线程的东西，它添加了一个包含 IP 的对象。然后我创建了该线程的两个实例并启动它们。他们使用相同的列表。我现在想使用 Synchronized 来阻止并发更新问题。但它不起作用，我
javascript - 同步
我正在尝试使用 FTP 定期将小数据文件从程序上传到服务器。用户从使用 javascript XMLHttpRequest 函数读取数据的网页访问数据。这一切似乎都有效，但我正在努力解决由 FTP 和
JavaScript 同步
我不知道如何同步下一个代码: javascript: (function() { var s2 = document.createElement('script'); s2.src =
Java 同步
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
同步 EDA 框架设计
一点睛 1 Message 在基于 Message 的系统中，每一个 Event 也可以被称为 Message，Message 是对 Event 更高一个层级的抽象，每一个 Message 都有一个
同步 EDA 框架设计
一点睛 1 Message 在基于 Message 的系统中，每一个 Event 也可以被称为 Message，Message 是对 Event 更高一个层级的抽象，每一个 Message 都有一个
jquery - getJSON 同步
目标:我所追求的是每次在数据库中添加某些内容时(在 $.ajax 到 Submit_to_db.php 之后)，从数据库获取数据并刷新 main.php(通过 draw_polygon 更明显)。所
iphone - 同步 CAAnimations
我有一个重复动画，需要与其他一些 transient 动画同步。重复动画是一条在屏幕上移动 4 秒的扫描线。当它经过下面的图像时，这些图像需要“闪烁”。闪烁的图像可以根据用户的意愿来来去去和移动。它
cuda block 同步
我有 b 个块，每个块有 t 个线程。我可以用 __syncthreads() 同步特定块中的线程。例如 __global__ void aFunction() { for(i=0;i #
azure - Azure表实体存在/同步
我正在使用azure表查询来检索分配给用户的所有错误实体。此外，我更改了实体的属性以声明该实体处于处理模式。处理完实体后，我将从表中删除该实体。当我进行并行测试时，可能会发生查询期间，一个实体已
不同机器上的应用程序访问时的 SQLite 同步
我想知道 SQLite 是如何实现它的。它基于文件锁定吗？当然，并不是每个访问它的用户都锁定了整个数据库；那效率极低。它是基于多个文件还是仅基于一个大文件？如果有人能够简要概述一下 sqlite 中
javascript - jquery如何发布到php，同步
我想post到php，当id EmpAgree1时，然后它的post变量EmpAgree=1；当id为EmpAgree2时，则后置变量EmpAgree=2等。但只是读取i的最后一个值，为什么？以及如何
cuda - CUBLAS 同步
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外，少数返回标量结果的函数，例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2()，通过引用
Java RMI 同步
我知道下面的代码中缺少一些内容，我的问题是关于 RemoteImplementation 中的同步机制。我还了解到该网站和其他网站上有几个关于 RMI 和同步的问题；我在这里寻找明确的确认/矛盾。我
java - AOP+同步
我不太确定如何解决这个问题......所以我可能需要几次尝试才能正确回答这个问题。我有一个用于缓存方法结果的注释。我的代码目前是一个私有(private)分支，但我正在处理的部分从这里开始: http
java - java中的线程/同步
我对 Java 非常失望，因为它不允许以下代码尽可能地并发移动。当没有同步时，两个线程会更频繁地切换，但是当尝试访问同步方法时，在第二个线程获得锁之前以及在第一个线程获得锁之前再次花费太长时间(比如
java - Kotlin 同步
过去几周我一直在研究java多线程。我了解了synchronized，并理解synchronized避免了多个线程同时访问相同的属性。我编写此代码是为了在同一线程中运行两个线程。 val gate =
另一个线程内的 Java 同步
我有一个关于 Java 同步的简单问题。请假设以下代码: public class Test { private String address; private int age;

首页

博学

6Ren·AI

商城

cuda - CUBLAS 同步